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文 乙 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 礁 断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 奉 出 、 独 领 风 驭 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 
日 花 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积 证 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 | | 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "~。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 后 放 在 了 各 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，MecGraw- 
Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 有 良好 的 合作 关 
系 ， 从 他 们 现 有 的 数 百 种 教材 中 杜 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. 
Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏。 
大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改 计 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 88379604 

联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 EERE 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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由 Larry L. Peterson 和 Bruce S. Davie BY (iz TSR Pe 2 Se AR BR HY 《计算 机 网 络 ， 系 统 
方法 》 已 经 成 为 计算 机 网 络 课程 的 主流 教材 ， 被 哈佛 大 学 、 斯 坦 福 大 学 、 卡 内 基 - 梅 隆 大 
学 、 康 奈 尔 大 学 、 普 林 斯 顿 大 学 等 国外 众多 名 校 采用 。 本 书 英文 版 已 经 出 版 了 5 个 版 本 ， 
Oe ee 

一 版 对 第 4 版 做 了 重大 的 改进 和 提升 : 扩充 和 更 新 了 无 线 技术 (包括 802.11 (Wi- 
te ian. 拥塞 控制 机 制 ( 针 对 具有 高 带宽 延迟 积 的 网 络 和 无 线 网 
络 )、Web IRS (包括 SOAP 和 REST 体系 结构 )、 域 间 路 由 和 边界 网 关 协 议 、 多 媒体 应 
用 协议 (包括 VoIP 和 视频 流 ) 等 方面 的 材料 ; HRT REAR (ATM 和 令 牌 环 等 
过 时 的 内 容 ; 将 交换 、 路 由 、 可 靠 传输 协议 等 材料 分 成 “初级 ”和 “高 级 ”两 部 分 ， 以 适 
应 不 同 层 次 读者 的 需要 ; 更 新 了 “相关 主题 ”和 “它们 现在 在 哪 ” 的 内 容 ， 以 反映 现实 世 
界 中 协议 的 最 新 发 展 状况 。 

作者 强调 网 络 现 有 工作 方式 的 成 因 ， 采 用 “系统 方法 ”将 网 络 看 作 由 相互 关联 的 构造 
模块 组 成 的 系统 〈 反 对 严格 的 分 层 ) ， 并 引入 丰富 的 因特网 实例 说 明 实 际 网 络 的 设计 。 书 
中 给 出 的 程序 代码 不 是 基于 某 个 特定 的 操作 系统 ， 而 是 经 过 重新 改编 以 适应 通用 环境 ， 说 
明 网 络 软件 是 如 何 实现 的 ， 借 此 帮助 读者 了 解 网 络 的 基础 构件 是 如 何 结合 在 一 起 的 。 

本 书 是 目前 最 新 版 的 关于 计算 机 网 络 的 优秀 教材 ， 为 学 生 和 专业 人 士 理解 现行 的 网 络 
技术 以 及 即将 出 现 的 新 技术 商定 了 良好 的 理论 基础 ， 是 确保 成 功 的 课堂 教学 和 高 效 的 网 络 
运行 的 重要 资源 。 

本 书 由 北京 理工 大 学 软件 学 院 的 王 勇 副教授 主持 翻译 ， 参 加 翻译 工作 的 有 北京 理工 大 
学 的 王 勇 第 1 和 8 章 、 前 言 、 习 题 选 答 、 术 语 )、 薛 静 锋 (第 2 章 )、 张 龙 飞 (第 3、4、 
7 章 ) 、 陈 琳 〈 第 5、6 章 ) 和 公安 部 第 三 研究 所 的 李 明 (第 9 章 ) ， 另 外 ， 胡 晶 晶 对 本 书 的 
翻译 也 提供 了 很 大 帮助 。 

由 于 译 者 水 平 有 限 ， 书 中 可 能 有 错误 或 不 甚 完善 之 处 ， 读 者 如 果 有 意见 或 建议 ， 欢 迎 
通过 E-mail 与 + FERR: wybit@sina. com, | 


O 译 者 
2015 年 3 月 
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为 了 与 不 断 发 展 的 计算 机 网 络 领域 保持 同步 ， 我们 对 这 本 经 典 教材 再 一 次 进行 了 修 
订 。 昌 然 因 特 网 和 相关 协议 在 当前 所 有 网 络 互 连 中 占 主导 地 位 ， 但 我 们 看 到 因特网 的 支撑 
技术 还 在 持续 发 展 ， 例 如 ,， “二 层 ” 交 换 提供 了 丰富 的 功能 和 强大 的 网 络 管理 工具 。 本 书 
前 一 版 将 交换 和 路 由 分 在 两 章 中 讲解 ， 但 是 基于 分 层 的 描述 并 不 总 是 表达 教材 要 点 的 最 好 
方法 ， 因 为 所 谓 的 交换 和 路 由 实际 上 起 到 类 似 且 互补 的 作用 。 新 版 以 一 种 综合 方法 来 看 待 
这 些 主题 ， 这 使 得 它们 在 功能 上 的 相似 点 和 不 同 点 更 加 明显 。 路 由 的 高 级 主题 则 移 到 下 一 
章 ， 可 以 根据 课程 的 重点 和 层次 略 过 该 章 。 

我 从 来 不 喜欢 用 纯 分 层 的 方法 讲授 网 络 ， 正如 第 1 版 序言 中 所 说 (我们 在 本 版 中 重印 
该 序言 只 是 为 了 好 玩 )。 联 网 中 的 一 些 关 键 问 题 ， 包 括 安全 和 性 能 ， 不 能 通过 将 它们 分 配 
不 存在 一 个 “性 能 ” 层 。 这 类 主题 不 但 关键 ,而且 跨越 多 个 层次 ， 本 
书 的 组 织 结构 仍然 涵盖 主 主题 以 及 层次 。 组 织 结构 反映 了 本 书 作为 教材 的 丰富 经 验 ， 同 时 也 
反映 出 一 种 方法 倾向 ， 即 同时 哇 现 基础 知识 和 当前 实践 。 

一 些 垂死 的 技术 现在 消失 或 鞭 缩 了 ， 包括 令 牌 环 (我 曾经 的 最 爱 ， 但 显然 是 它 该 离开 
的 时 候 了 ) 和 ATM, 新 版 意识 到 我 们 应 该 更 多 地 关注 应 用 设计 ， 而 不 仅仅 是 分 组 转发 。 
无 线 和 移动 技术 也 得 到 更 多 关注 。 

作者 再 次 努力 工作 ， 以 便 写 出 能 够 以 一 种 方便 教学 的 方式 阅 述 该 领域 重点 内 容 的 修订 
版 。 我 很 高 兴 地 看 到 这 一 版 比 以 前 的 更 好 。 





David D. Clark 
2010 #11 A 
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面条 型 代码 (spaghetti code) 一 词 普遍 被 认为 是 一 种 侮辱 。 所 有 优秀 的 计算 机 科学 家 
都 推崇 模块 化 ， 这 是 因为 它 能 带 来 许多 好 处 ， 最 大 的 好 处 是 解决 问题 而 不 必 同 时 了 解 问题 
的 所 有 环节 。 因 此 ， 本 书 在 表达 观点 和 编写 代码 时 ， 模 块 化 扮演 着 重要 的 角色 。 如 果 一 本 
书 的 材料 以 模块 化 的 方式 有 效 地 组 织 起 来 ， 那 么 读者 就 会 很 乐意 从 头 读 到 尾 。 

在 网 络 协议 领域 ， 采 用 国际 标准 形式 ， 即 ISO 的 七 层 网 络 协议 参考 模型 ， 给 出 了 “人 恰 
当 的 ”模块 化 ， 这 或 许 是 独一无二 的 。 该 模型 反映 了 一 种 分 层 的 模块 化 方法 ， 经 常 作为 讨 
论 协 议 的 起 点 ， 以 分 析 所 讨论 的 设计 是 符合 还 是 偏离 这 种 模型 。 | 

看 上 去 根据 这 种 分 层 模型 来 组 织 一 本 网 络 书籍 是 显而易见 的 。 但 事实 上 这 样 做 是 有 风 
险 的 ， 因 为 OSI 模型 在 组 织 网 络 的 核心 概念 时 并 不 成 功 。 一 些 基本 需求 ， 如 可 靠 性 、 流 量 
控制 或 安全 ， 能 够 在 多 数 (即使 不 是 所 有 ) OSI 分 层 中 解决 。 这 种 实际 情况 导致 对 参考 模 
型 理解 的 巨大 混乱 ， 有 时 甚至 产生 怀疑 。 实 际 上 ， 如 果 严 格 按照 层次 模型 来 组 织 一 本 书 ， 
那么 它 就 具有 某 些 面条 型 代码 的 特点 了 。 rT | 7 | 

| 本 书 是 根据 什么 来 组 织 的 呢 ? Peterson 和 Davie 遵循 传统 的 分 层 模 型 ， 但 他 们 并 不 否 
认 该 模型 实际 上 无 助 于 理解 网 络 中 的 重大 问题 。 相 反 ， 作 者 采用 一 种 与 层次 无 关 的 方法 来 
组 织 基本 概念 的 讨论 。 因 此 ， 在 阅读 本 书后 ， 读 者 将 会 理解 流量 控制 、 拥 塞 控制 、 可 靠 性 
增强 、 数 据 的 表示 以 及 同步 等 问题 。 同 时 ， 读 者 将 了 解 在 传统 分 层 模型 的 某 一 层 中 如 何 解 
决 这 些 问 题 。 aas 

这 是 一 本 与 时 俱 进 的 书 。 本 书 着 眼 于 当前 使 用 的 重要 协议 ， 尤 其 是 有 关 因 特 网 的 协 
X. Peterson 和 Davie 长 期 从 事 因特网 相关 工作 ， 具 有 丰富 的 经 验 。 因 此 ， 他 们 的 书 不 仅 
从 理论 上 而 且 从 实践 上 揭示 了 协议 设计 的 问题 。 本 书 也 介绍 许多 最 新 的 协议 ， 读 者 可 以 从 
中 获取 最 新 的 观点 。 更 重要 的 是 ， 对 基本 问题 的 讨论 是 源 自问 题 的 本 质 ， 而 不 受 分 层 参考 
模型 或 当前 协议 细节 的 限制 。 在 这 一 点 上 ， 本 书 既 体现 了 时 效 性 ， 又 不 受 时 间 的 限制 。 本 
书 的 独特 之 处 在 于 它 将 有 关 的 实际 问题 、 实 例 和 基本 概念 的 解释 有 机 地 结合 在 一 起 。 








David D. Clark 
” 麻 省 理工 学 院 
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当 本 书 第 1 版 在 1996 年 出 版 时 ， 在 因特网 上 购物 还 是 很 新 奇 的 事情 ， 如 果 一 家 公司 
用 它 的 域名 做 广告 ， 人 们 认为 这 是 很 超前 的 。 那 时 ， 家 庭 接 入 因特网 的 主要 方式 是 通过 拨 
写 调 制 解 调 器 。 今 天 ， 因 特 网 商务 已 成 为 无 法 改变 的 现实 ,，“. com” 股 票 已 经 历 了 一 个 完 
整 的 兴衰 循环 。 无 线 网 络 无 处 不 在 ， 诸 如 智能 手机 和 平板 电脑 等 具有 上 网 功能 的 新 设备 正 
以 令 人 目 胺 的 速度 上 市 。 关 于 因特网 ， 似 乎 唯一 可 以 预见 的 就 是 它 会 不 断 变化 。 

尽管 有 这 么 大 的 变化 ， 但 我 们 在 第 1 版 中 提出 的 问题 对 于 今天 来 说 仍然 是 有 效 的 ;使 
因特网 得 以 运行 的 基本 概念 和 技术 是 什么 ? 答案 是 ，TCP/IP 体系 结构 的 大 部 分 功能 在 今 
天 仍然 适用 ， 这 一 点 正 像 30 多 年 前 它 的 发 明 者 所 预见 的 那样 。 这 并 不 是 说 因特网 的 体系 
结构 枯燥 乏味 ， 而 是 完全 相反 。 对 于 一 个 历经 30 多 年 ， 不 但 幸存 下 来 ， 而 且 促 进 因特网 
这 样 快速 地 增长 和 变化 的 体系 结构 ， 将 理解 其 设计 原理 作为 学 习 网 络 的 起 点 是 很 合适 的 。 
正如 前 几 版 一 样 ， 第 5 版 将 因特网 体系 结构 中 的 “为 什么 ”作为 基础 。 


读者 对 象 


我 们 的 目的 是 把 本 书 作为 综合 网 络 课程 的 教材 ， 供 研究 生 或 高 年 级 本 科 生 使 用 。 我 们 
相信 ， 本 书 对 核心 概念 的 专注 不 但 对 正在 进行 再 培训 以 便 完 成 网 络 相 关 工 作 的 专业 人 员 有 
吸引 力 ， 而 且 可 以 帮助 网 络 从 业 人 员 理 解 他 们 每 天 接触 的 网 络 协议 背后 的 “为 什么 ”， 并 
ARF MAMA. | 

根据 我 们 的 经 验 ， 第 一 次 学 习 网 络 的 学 生 和 专业 人 员 通 常会 把 网 络 协议 理解 成 一 种 从 
高 层 传 到 低层 的 命令 ， 认 为 学 习 尽 可 能 多 的 TLA (Three-Letter Acronyms， 三 个 字母 的 
缩写 词 就 可 以 了 。 事 实 上， 协议 是 应 用 工程 设计 原理 开发 出 来 的 复杂 系统 的 构件 。 不 仅 
如 此 ， 协 议 总 是 根据 现实 世界 的 经 验 不 断 地 进行 精炼 、 扩 展 和 替换 。 基 于 这 一 点 ， 本 书 的 
目标 并 不 是 单纯 地 介绍 当前 使 用 的 协议 ， 而 是 解释 良好 网 络 设计 的 基本 原理 。 我 们 认为 党 
握 这 些 基 本 原理 是 应 对 当前 瞬息 万 变 的 网 络 领域 的 最 好 方法 。 

我 们 还 意识 到 人 们 用 很 多 不 同 的 方法 来 看 待 网 络 。 与 我 们 写 第 1 版 时 相 比 ， 大 多 数 阅 
读本 书 的 人 都 是 具有 丰富 经 验 的 网 络 用 户 。 一 些 人 希望 成 为 网 络 产品 或 协议 的 设计 者 ， 其 
他 人 可 能 对 管理 网 络 感 兴趣 ， 而 越 来 越 多 的 读者 正在 或 将 要 成 为 互联 网 设备 的 应 用 开发 
者 。 未 来 产品 和 协议 的 设计 者 历来 是 我 们 关注 的 重点 ， 现 在 依然 如 此 ， 但 在 本 版 中 ， 我 们 
也 试图 关注 网 络 管理 员 和 应 用 开发 者 。 : 





尽管 我 们 关注 网 络 的 基本 原则 ， 但 我 们 还 是 要 使 用 正在 运行 的 因特网 中 的 例子 来 阐述 
这 些 原则 。 因 此 ， 我 们 补充 了 相当 多 的 新 资料 来 跟踪 近期 网 络 技术 的 重要 发 展 。 我 们 同时 
对 已 有 资料 做 了 删除 、 重 新 组 织 和 改写 ， 以 反映 过 去 10 年 发 生 的 变化 ， 

也 许 自从 编写 第 1 版 以 来 我 们 所 觉察 到 的 最 重要 的 变化 ， 就 是 现在 几乎 每 一 位 读者 都 


对 诸如 万 维 网 和 电子 邮件 这 样 的 网 络 化 应 用 有 了 一 定 的 了 解 。 因 此 ， 我 们 从 第 1 章 开始 就 
加 大 了 对 应 用 的 侧重 。 我 们 把 应 用 当 作 学 习 网 络 技术 的 动机 ， 并 得 出 一 组 需求 ， 有 用 的 网 
络 只 有 满足 这 些 需求 才能 在 全 球 范围 内 支持 当前 和 未 来 的 各 种 应 用 。 然 而 ,我 们 保留 了 先 
前 版 本 解决 问题 的 方法 ， 即 从 主机 的 互联 问题 开始 ， 逐 层 向 上 讨论 ， 最 后 对 应 用 层 的 问题 
进行 详细 的 考察 。 我 们 认为 从 各 种 应 用 及 其 需求 起 步 对 于 在 本 书 所 覆盖 的 各 主题 间 建 立 联 
系 是 很 重要 的 。 同 时 ， 我 们 感到 对 于 诸如 应 用 层 协 议和 传输 层 协 议 等 高 层 协议 的 问题 ， 只 
有 在 明白 主机 互 连 和 分 组 交换 这 样 的 基本 问题 之 后 才能 很 好 地 理解 。 也 就 是 说 ， 我 们 使 得 
以 一 种 更 加 自 顶 向 下 的 方式 组 织 材 料 成 为 可 能 ， 详 情 如 下 所 述 。 

正如 前 几 版 ， 我 们 增 大 了 对 重要 新 主题 的 覆盖 面 ， 并 使 其 他 主题 紧 跟 潮流 。 新 版 中 主 
要 的 新 主题 或 有 实质 性 改动 的 主题 包括 : Ta 

。 更 新 了 无 线 技术 的 内 容 ， 特 别 是 802.11 (Wi-Fi) 的 各 种 相关 内 容 以 及 包括 第 三 代 
移动 通信 标准 (3G) 和 正在 逐步 普及 的 4G 标准 在 内 的 蜂窝 无 线 技术 。 

更 新 了 拥塞 控制 机 制 的 内 容 ， 特 别 是 具有 高 延迟 带宽 积 的 网 络 和 无 线 网 络 。 

。 更 新 了 Web 服务 的 材料 ， 包 括 SOAP 和 REST (Representational State Transfer, 
表述 性 状态 转移 ) 体系 结构 。 | | | 

扩展 和 更 新 了 域 间 路 由 和 边界 网 关 协 议 BOP) HAR. 

扩展 了 多 媒体 应 用 协议 的 内 容 ， 如 基于 IP 的 语音 (VoIP) 和 视频 流 。 

我 们 还 减少 了 目前 已 不 太 相 关 的 主题 。 在 本 版 中 ， 被 转移 到 “历史 性 ”类 别 中 的 内 容 

包括 异步 传输 模式 (ATM) MORR., Bey >, 

新 版 最 大 的 变化 之 一 是 将 材料 分 成 “初级 ”和 “高 级 ”两 部 分 。 我 们 希望 不 了 解 网 络 
技术 和 协议 的 人 更 容易 接受 本 书 ， 同 时 也 不 丢弃 高 层次 读者 需要 的 高 级 内 容 。 这 种 变化 产 
生 的 最 明显 的 影响 是 现在 第 3 章 包 含 交换 、 路 由 和 网 络 互 连 的 基础 内 容 ， 而 第 4 章 包含 更 
高 级 的 路 由 主题 ， 如 BGP、IPv6 和 多 播 。 与 此 类 似 ， 传 输 协议 基础 放 在 第 5 章 ， 而 更 高 
级 的 材料 (如 TCP 拥塞 控制 算法 ) 出 现在 第 6 章 。 我 们 相信 ， 这 种 变化 会 使 得 不 熟悉 该 
领域 的 读者 掌握 重要 的 基本 概念 ， 并 且 不 会 因为 复杂 主题 而 不 堪 重 负 。 | 

就 像 上 一 版 一 样 ， 我 们 加 入 了 一 些 “ 它 们 现在 在 哪 ” 的 讨论 。 这 些 简短 的 讨论 在 本 版 中 
经 过 更 新 ， 重 点 关注 现实 世界 中 协议 的 成 败 。 有 时 ， 它 们 描述 了 一 个 已 经 被 大 多 数 人 忽视 但 
实际 上 取得 了 名 不 见 经 传 的 成 功 的 协议 ， 有 时 ， 它 们 跟踪 某 个 经 过 很 长 时 间 却 失败 了 的 协议 
的 命运 。 这 些 内 容 的 目的 是 通过 展示 技术 在 竞争 的 网 络 世界 中 的 表现 来 把 材料 关联 起 来 。 
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系统 方法 E 
对 于 像 计 算 机 网 络 这 样 动态 的 和 不 断 变化 的 领域 来 说 ， 一 本 教材 能 提供 的 最 重要 的 东 
西 是 洞察 能 力 ， 以 便 分 清 什么 是 重要 的 、 什 么 是 不 重要 的 、 什 么 是 长 久 的 、 什 么 是 肤浅 
的 。 根 据 我 们 在 网 络 新 技术 研究 、 为 本 科 生 与 研究 生 讲 授 网 络 最 新 趋势 以 及 把 先进 的 网 络 
产品 投放 市 场 等 方面 超过 25 年 的 经 验 ， 我 们 提炼 了 自己 的 观点 一 一 系统 方法 ， 它 是 本 书 
的 精髓 。 系 统 方法 有 以 下 含义 ae T 
。 基本 原则 。 与 其 将 现成 的 网 络 产品 作为 准则 ， 不 如 从 基本 原则 开始 了 解 当 今 网 络 
技术 的 发 展 过 程 。 这 能 让 我 们 解释 网 络 为 什么 像 现在 这 样 设计 。 根 据 我 们 的 经 验 ， 


一 旦 理解 了 基本 概念 ， 那 么 理解 遇 到 的 任何 新 协议 都 将 变 得 相对 容易 。 


非 分 层 主义 者 。 虽 然 材料 是 围绕 传统 网 络 层 次 松散 地 组 织 起 来 的 ， 从 底层 开始 沿 
协议 栈 四 上 展开 ， 但 是 我 们 并 不 采用 严格 分 层 的 方法 。 许 多 主题 涉及 上 下 多 个 层 ， 


如 拥塞 控制 和 安全 ， 所 以 我 们 不 用 传统 的 分 层 模 型 讨论 它们 。 与 此 类 似 ， 路 由 器 
和 交换 机 有 很 多 共同 点 (并且 经 常 结合 起 来 组 成 单个 产品 )， 因 此 我 们 在 同一 章 中 
讨论 它们 。 简 言 之 ,我们 相信 分 层 是 很 好 的 辅助 ， 但 不 必 受 它 的 限制 ， 采 用 端 到 


”端的 观点 常常 更 有 用 。 


© 


现实 世界 的 例子 。 与 其 抽象 地 解释 协议 如 何 工 作 ， 不 如 使 用 当今 最 重要 的 协议 具 
体 说 明 网 络 是 如 何 工作 的 。 许 多 协议 都 是 源 自 TCP/IP 因特网 的 ， 这 就 允许 我 们 
在 讨论 中 借鉴 实际 经 验 。 | 

软件 。 虽 然 底层 网 络 是 由 可 以 从 计算 机 销售 商 那里 购买 的 硬件 以 及 可 以 从 电话 公 


司 租用 的 通信 服务 构建 而 成 的 ， 但 是 ， 只 有 软件 才能 使 网 络 提供 新 服务 ， 并 迅速 


适应 环境 变化 。 这 就 是 我 们 为 什么 强调 网 络 软件 如 何 实现 ， 而 不 是 只 停留 在 描述 


所 涉及 的 抽象 算法 上 。 我 们 还 会 给 出 实际 送行 的 协议 栈 的 代码 段 ， 以 说 明 如 何 实 
现 某 些 协 议和 算法 。 四 = 

以 端 到 端 为 重点 。 网 络 是 由 许多 组 件 构成 的 ， 虽 然 在 解决 具体 问题 时 有 必要 忽略 
一 些 不 感 兴趣 的 元 素 ， 但 是 理解 如 何 将 这 些 组 件 组 合成 具有 一 定 功 能 的 网 络 是 非 
常 重要 的 。 所 以 我 们 花 大 量 的 篇 幅 解释 网 络 完整 的 端 到 端 行为 ， 而 不 只 是 单个 组 
件 ， 以 便 理解 一 个 完整 的 网 络 是 如 何 运行 的 ， 包 括 从 应 用 到 硬件 的 所 有 方面 。 





。 性 能 。 系 统 方法 包含 通过 实验 研究 性 能 问题 ， 然 后 使 用 收集 到 的 数据 对 各 种 设计 


§ 


选项 进行 定量 分 析 并 指导 优化 实现 。 这 种 对 实验 分 析 的 强调 贯穿 全 书 。 


设计 原则 。 网 络 很 像 其 他 计算 机 系统 ， 如 操作 系统 、 处 理 器 体系 结构 、 分 布 式 和 
并 行 系统 等 。 它 们 都 很 大 ， 也 很 复杂 。 为 了 处 理 这 种 复杂 性 ， 系 统 设 计 者 常常 提 


出 一 组 设计 原则 。 在 书 中 介绍 这 些 设计 原则 时 ， 我 们 会 予以 强调 ， 并 用 计算 机 网 


络 中 的 例子 进行 解释 说 明 。 


第 5 版 保留 了 以 前 版 本 中 关键 的 教学 特色 ， 我 们 鼓励 读者 利用 这 些 特色 : 


问题 。 在 每 一 章 的 开始 ， 我 们 通过 一 个 问题 指明 网 络 设计 中 必须 要 解决 的 后 续 问 


， 题 。 这 段 描述 将 引出 并 推动 本 章 要 探讨 的 问题 。 
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相关 主题 。 在 本 书 中 , “相关 主题 ”内 容 描述 了 正在 讨论 的 主题 或 介绍 相关 高 级 主 
题 ， 这 些 多 为 关于 网 络 的 逸闻 趣事 。 

它们 现在 在 哪 ? 这 部 分 内 容 跟踪 协议 在 实际 部 车 情况 下 的 成 败 。 

结论 。 这 些 段落 归纳 了 在 讨论 中 得 出 的 重要 结论 ， 如 广泛 适用 的 系统 设计 原则 。 
实际 协议 。 虽 然 本 书 的 重点 是 核心 概念 而 不 是 现 有 的 协议 规程 ， 但 实际 协议 常 被 
用 于 说 明 大 部 分 的 重要 观点 。 因 此 本 书 可 以 作为 很 多 协议 的 参考 源 。 为 了 帮助 你 


”找到 这 些 协 议 的 描述 ， 相 关 章 节 标 题 中 用 括号 括 起 来 的 内 容 指明 在 本 节 中 描述 的 


协议 。 例 如 ，5. 2 节 描述 可 靠 的 端 到 端 协议 的 原理 ， 它 提供 对 TCP 的 详细 描述 ， 


© 
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以 作为 这 类 协议 的 典型 实例 。 | i 

接 下 来 会 发 生 什 么 ? 我 们 以 研究 团体 、 业 界 或 整个 社会 正在 探讨 的 一 个 重要 问题 
作为 每 一 章 主 体 部 分 的 结尾 。 我 们 发 现 讨 论 这 些 前 瞻 性 问题 有 助 于 将 网 络 主题 变 
得 更 加 相互 关联 且 令 人 兴奋 。 a 

扩展 阅读 。 在 每 一 章 结尾 有 精 选 的 扩展 阅读 列表 。 每 个 列表 一 般 包 含有 关 刚 刚 讨 
论 的 主题 的 重要 论文 。 我 们 强烈 推荐 高 级 读者 〈 如 研究 生 ) 研究 扩展 阅读 中 的 论 
文 ， 以 便 补充 各 章 所 讲 的 材料 。 


本 书 结构 和 教学 方法 
本 书 按 如 下 方式 进行 组 织 ; 


® 


全 


全 


第 1 章 介绍 全 书 使 用 的 核心 概念 。 从 各 种 应 用 出 发 ， 讨 论 网 络 体系 结构 的 组 成 ， 
介绍 协议 的 实现 问题 ， 并 定义 通常 能 够 促进 网 络 设 计 的 定量 性 能 度量 。 

第 2 章 综述 用 户 与 因特网 等 大 型 网 络 相连 的 多 种 方法 ， 介 绍 链 路 的 概念 ， 描 述 所 
有 链 路 层 协议 必须 解决 的 许多 问题 ， 包 括 编码 、 组 帧 和 差错 检测 。 当 前 最 重要 的 


链 路 技术 以 太 网 和 无 线 也 在 本 章 中 讲述 。 


第 3 章 从 虚 电 路 和 数据 报 模 型 开始 介绍 交换 和 路 由 的 基本 概念 ， 包 括 网 桥 和 局 域 
网 交换 ， 接 下 来 是 对 网 络 互 连 的 介绍 ， 包 括 网 际 协 议 〈Jnternet Protocol, IP) 和 
路 由 协议 。 本 章 的 结尾 讨论 了 一 系列 基于 硬件 和 软件 构造 路 由 器 和 交换 机 的 方法 。 
第 4 章 涵盖 高 级 网 络 互 连 主题 。 包 括 多 区 域 路 由 协议 、 域 间 路 由 和 BGP, IPv6, 
多 协议 标记 交换 (MultiProtocol Label Switching, MPLS) 和 多 播 。 

第 5 章 转 移 到 传输 层 ， 详 细 摘 述 因特网 中 用 于 创建 客户 /服务 器 应 用 的 传输 控制 协 
BL (Transmission Control Protocol, TCP) 和 远程 过 程 调用 (Remote Procedure 
Call, RPC), ， 同 时 介绍 文 持 多 媒体 应 用 的 实时 传输 协议 (Real-time Transport Pro- 
tocol, REPIS 
第 6 章 讨 论 拥 塞 控 制 和 资源 分 配 。 本 章 的 问题 贯穿 了 链 路 层 〈 第 2 章 )、 网 络 层 
(第 3、4 章 ) 和 传输 层 第 5 章 ) 。 特 别 注意 ， 本 章 还 描述 拥塞 控制 如 何在 TCP 上 
工作 ， 并 且 介 绍 在 IP 中 用 于 提供 服务 质量 的 机 制 。 

第 7 章 考虑 通过 网 络 发 送 的 数据 。 这 涉及 表示 格式 和 数据 压缩 问题 。XML 也 在 本 
章 讲述 ， 压 缩 部 分 包括 对 MPEG 视频 压缩 和 MP3 音频 压缩 工作 原理 的 解释 。 

第 8 章 讨论 网 络 安全 ， 首 先 简要 介绍 密码 学 工具 和 和 密 钥 分 发 问题 ， 然 后 讨论 几 种 
使 用 公 和 钥 和 私 钥 的 认证 技术 。 本 章 的 重点 是 使 用 诸如 良好 隐私 (Pretty Good Pri- 
vacy，PGP)、 安 全 外 壳 (Secure Shell, SSH) 和 IP 安全 体系 结构 (IPSEC) 构建 
安全 系统 。 防 火 墙 也 在 本 章 讨论 。 

第 9 章 描述 典型 的 网 络 应 用 实例 和 它们 使 用 的 协议 ， 包 括 像 电子 邮件 和 万 维 网 这 
样 的 传统 应 用 、 像 IP 电话 和 视频 流 这 样 的 多 媒体 应 用 ， 以 及 像 对 等 文件 共享 和 内 
容 分 发 网 络 这 样 的 覆盖 网 络 。 本 章 还 描述 基础 设施 服务 一 一 域名 系统 (Domain 
Name System, DNS) 和 网 络 管理 。 用 于 开发 新 应 用 协议 的 Web 服务 体系 也 在 本 


章 介绍 。 


对 于 本 科 生 课程 ， 很 可 能 需要 追加 课时 来 帮助 学 生理 解 第 1 章 中 的 介绍 性 材料 ， 而 放 
弃 第 4 章 以 及 第 6 一 8 章 中 涵盖 的 高 级 主题 。 然 后 在 第 9 章 回 到 网 络 应 用 的 一 般 主 题 。 本 
科 生 课程 可 以 合理 地 跳 过 更 高 级 的 部 分 (如 5.3 节 、9.3.1 节 、9.3.2 节 和 9.2.2 节 )。 

相 比 之 下 ， 研 究 生 课程 的 教师 应 该 能 够 只 用 1 次 或 2 次 课 讲 完 第 1 章 一 一 让 学 生 自己 
更 认真 地 学 习 这 些 材料 ， 从 而 可 以 空 出 更 多 的 课时 更 深入 地 讲授 第 4 章 及 后 续 章 节 。 

对 于 自学 本 书 的 读者 ， 我 们 相信 和 所 选 的 主题 涵盖 了 计算 机 网 络 的 核心 内 容 ， 因 此 建议 
从 前 向 后 顺序 阅读 。 另 外 ， 我 们 提供 了 详细 的 参考 文献 目录 ， 帮 助 读者 找到 与 感 兴趣 的 特 
定 领域 相关 的 补充 资料 。 我 们 还 提供 了 习题 选 答 。 

本 书 用 独特 的 方法 讨论 拥塞 控制 ， 即 把 有 关 拥 塞 控制 和 资源 分 配 的 所 有 主题 集中 到 第 
6 章 。 这 样 做 是 因为 拥塞 控制 问题 不 能 在 任何 一 层 单独 解决 ， 我 们 希望 读者 能 够 同时 考虑 
各 种 设计 选择 〈 这 与 我 们 的 观点 是 一 致 的 ， 即 严格 的 分 层 常常 模糊 了 重要 的 设计 权衡 )。 
然而 ， 用 更 传统 的 方法 来 讲解 拥塞 控制 也 是 可 能 的 ， 即 在 学 习 第 3 章 时 参考 6. 2 节 的 内 
容 ， 以 及 在 学 习 第 5 章 时 参考 6. 3 THAR. E 





因为 现在 学 习 网 络 课程 的 大 部 分 学 生 都 熟悉 网 络 应 用 ， 因 此 一 些 课程 从 应 用 开始 讲解 。 
虽然 本 书 的 确 在 第 1 章 提 纲 者 领地 介绍 了 应 用 ， 但 直到 第 9 章 才 详 细 讨 论 应 用 层 的 问题 。 考 
虑 到 有 些 教授 或 读者 希望 使 用 更 加 自 顶 向 下 的 方法 ， 我 们 建议 采用 如 下 可 能 的 方式 使 用 本 书 
的 材料 。 f -n 
。 第 1 章 。 本 章 描述 应 用 及 其 需求 ， 为 教材 的 其 他 内 容 做 好 铺垫 。 
第 9 章 。 传 统 应 用 (9. 1 节 ) 和 多 媒体 应 用 (9. 2 节 ) 部 分 以 读者 熟悉 的 应 用 作为 
例子 来 引入 网 络 协议 的 概念 。9. 3.1 节 (DNS) 也 应 该 包括 在 内 。 
接 下 来 应 该 讲授 7. 2 节 ， 解 释 多 媒体 应 用 产生 的 数据 是 如 何 编码 和 压缩 的 。 
。 第 5 章 。 此 时 可 以 讲解 传输 协议 基础 ， 解 释 应 用 层 协议 产生 的 数据 如 何 进行 可 靠 


@ 
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的 跨 网 络 传输 ， : 
。 第 3 章 。 可 以 将 交换 、 网 络 互 连 和 路 由 理解 为 提供 传输 协议 运行 所 依赖 的 基础 
设施 | | / 


。 第 2 章 。 最后， 可 以 讲解 数据 到 底 是 如 何在 像 以 太 网 链 路 和 无 线 链 路 这 样 的 物理 
介质 上 进行 编码 和 传输 的 。 | D a 
显然 ， 我 们 在 上 述 安排 中 上 略 去 了 很 多 章节 。 对 于 更 高 级 的 课程 或 更 深入 的 目 学 ， 可 以 
在 后 面 追 加 像 资源 分 配 (第 6 章 ) 和 安全 (第 8 章 ) 等 主题 以 及 第 4 章 中 的 高 级 主题 。 安 
全 几乎 可 以 单独 讲解 ， 但 所 有 高 级 主题 只 有 在 第 3 章 和 第 5 章 中 分 别 讲解 了 IP 和 TCP 之 
后 才 有 意义 。 
注意 ， 访 问 booksite. elsevier. com/9780123850591/lec. php， 除 了 按照 本 书 的 顺序 制 
作 的 一 套 课件 以 外 ， 还 包括 按照 上 述 自 顶 向 下 顺序 制作 的 一 套 诬 件 。 


习题 


每 一 版 中 都 对 习题 进行 了 重大 改进 。 在 第 2 版 中 ,我 们 增加 了 习题 的 数量 ， 并 且 根 所 


课堂 测验 大 大 提高 了 习题 的 质量 。 在 第 3 版 中 ， 我 们 对 习题 做 了 两 方面 的 重大 修改 ， 
包括 : | E 
E E T R E E ee eye eey ee 
标记 以 表明 它们 的 难度 更 高 。 
。 我 们 在 每 一 章 都 增加 了 一 些 额 外 的 典型 习题 并 在 书后 提供 答案 。 这 些 习题 用 v/ 标 
记 ， 目 的 是 为 完成 其 他 习题 提供 一 些 帮 助 。 
在 这 一 版 中 增加 了 新 习题 以 反映 更 新 的 内 容 ， 现 有 习题 可 分 为 如 下 几 类 : 
。 分 析 性 习题 ， 要 求学 生 做 简单 的 代数 计算 ， 展 示 他 们 对 基本 关系 的 理解 。 
。 设计 习题 ， 要 求学 生 针 对 各 种 情况 设计 并 评估 协议 。 
”实践 习题 ， 要 求学 生 写 少量 代码 以 测试 一 个 想法 或 使 用 现成 的 网 络 工具 进行 实验 。 
。 文献 研究 习题 ， 让 学 生 更 深入 地 了 解 某 个 特定 主题 。 
en 
获得 。 | 





补充 材料 和 在 线 资源 


为 了 方便 教学 ， 我 们 准备 了 教学 手册 ， 人 BE J LHS RHEE 可 以 向 出 版 社 索取 

该 手册 .9 

其 他 辅助 材料 ， 包 括 课 件 、 教 材 图 片 、 基 于 套 接 字 的 编程 习题 、 测 验 题 以 及 编程 习题 
可 以 在 Morgan Kaufmann 的 网 站 上 找到 ， 网 址 为 booksite. elsevier. com/9780123850591/ 
index. php, | 

最 后 ， 与 第 4 版 一 样 ， 本 书 配 有 一 套 实 验 。 这 些 实验 由 马萨诸塞 大 学 达 特 茅 斯 分 校 的 
Emad Aboelela 教授 开发 ， 通 过 仿真 实验 来 探讨 本 书 中 协议 的 行为 、 可 扩展 性 和 性 能 。 讨 
论 实验 相关 材料 的 章节 均 带 有 标记 。 仿 真 使 用 OPNET 仿真 工具 集 。° 


致谢 


如 果 没有 众多 朋友 的 帮助 ， 本 书 是 不 可 能 问世 的 。 我 们 非常 感谢 所 有 为 改进 本 书 做 出 
贡献 的 人 。 然 而 ， 在 致谢 之 前 应 该 说 明 的 是 ， 我 们 已 经 尽力 改正 审阅 人 指出 的 错误 并 且 尽 
量 准 确 地 描述 同事 们 回 我 们 解释 的 协议 和 机 制 。 如 果 还 有 什么 错误 ， 那 是 我 们 自己 的 责 
任 。 如 采 你 发 现任 何 错误 ， 请 发 电子 邮件 给 我 们 的 出 版 商 Morgan Kaufmann， 地 址 是 net- 
bugsPD5e@mkp. com, 我 们 将 在 本 书 再 次 印刷 时 进 和 TAE 

首 乞 ， 我 们 衷心 感谢 审阅 过 全 部 或 部 分 书稿 的 人 。 除 了 审阅 过 以 前 版 本 的 人 ， 我 们 还 
想 感谢 Peter Dordal、Stefano Basagni, Yonshik Choi, Wenbing Zhao, Sarvesh Kulkar- 


日 关于 本 书 教 辅 资源 ， 使 用 教材 的 老师 需 通过 爱 思 唯 尔 的 教材 网 站 Cwww. textbooks. elsevier. com) 注册 并 通过 审批 后 
才能 获取 相关 资源 。 具 体 方 法 如 下 在 www. textbooks. elsevier. com 教材 网 站 查找 到 该 书后 ， 点 击 “instructor 
manual” 便 可 申请 查看 该 教师 手册 。 有 任何 问题 ， 请 致电 010-85208853。 编辑 注 

© 关于 本 书 配 套 的 《计算 机 网 络 实验 教程 》( 中 文 版 )， 欢 迎 访问 华章 网 站 (www. hzbook. 


E ee alee 全 部 实验 在 各 章节 的 对 应 位 置 
添加 了 注释 。 一 一 编辑 注 
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ni, James Menth 和 John Doyle〈 以 及 一 个 匿名 审阅 人 ) 对 全 书 的 审阅 。 还 要 感谢 Dina 
Katabi 和 Hari Balakrishnan 对 各 章节 的 审阅 。 我 们 也 要 感谢 所 有 提供 反馈 意见 和 信息 来 
帮助 我 们 写作 该 版 的 人 。 | 

普林斯顿 网 络 系统 组 的 几 位 成 员 向 本 书 贡献 了 他 们 的 想法 、 示 例 、 修 订 、 数 据 和 代 
A 我 们 特别 感谢 Andy Bavier、 Tammo Spalink, | Mike Wawrzoniak, Stephen Soltesz 和 
KyoungSoo Park。 还 要 感谢 Shankar M. Banik 为 本 书 制作 了 两 套 清 晰 易 懂 的 课件 。 

最 后 ， 我 们 衷心 地 感谢 丛书 编辑 David Clark， 以 及 Morgan Kaufmann 出 版 公司 在 本 
书 编写 期 间 帮 助 过 我 们 的 所 有 人 。 还 要 特别 感谢 我 们 原来 的 责任 编辑 Jennifer Young、 本 
版 的 编辑 Rick Adams、 开 发 编辑 Nate McFadden、 助 理 编辑 David Bevans 以 及 制作 编辑 
Paul Gottehrer。 同 时 要 感谢 MKP 的 出 版 人 Laura Colantoni， 她 的 领导 激励 着 我 们 专注 于 
本 修订 版 。 


链 = 2E | 
* Networks: A Systems Approach 


我 知道 并 使 用 这 本 书 已 经 多 年 ， 无 论 是 作为 计算 机 网 络 教材 还 是 网 络 技术 人 员 的 参考 
书 ， 本 书 都 非常 有 价值 。 第 5 版 保持 了 之 前 版 本 的 核心 价值 ， 并 且 通 过 最 新 技术 和 需求 对 
网 络 协议 进行 了 非常 清晰 的 解释 。 除 了 描述 过 去 和 当前 网 络 的 细节 ， 本 书 还 成 功 激发 了 读 
者 的 好 奇 心 ， 并 有 望 促进 对 未 来 网 络 的 新 研究 。 7 

-一 一 Stefano Basagni, ž 国 东 北大 学 


本 书 非常 适合 认真 学 习 计算 机 网 络 的 学 生 ， 当 然 ， 它 也 适合 休闲 阅读 。 作 者 热情 高 
涨 ， 对 网 络 中 的 有 趣 主题 有 着 全 面 而 及 时 的 把 握 。 本 书 不 仅 解释 各 种 协议 如 何 工作 ， 而 且 
说 明 它 们 为 什么 这 样 工 作 ， 以 及 某 些 协议 为 什么 如 此 重要 和 有 趣 。 本 书 还 涉及 历史 背景 介 
绍 ， 从 正文 部 分 到 “它们 现在 在 哪 ” 再 到 每 章 “ 扩 展 阅 读 ” 中 介绍 的 文献 ， 这 些 内 容 为 读 
者 提供 了 “ 知 其 所 以 然 ”的 视角 。 总 之 ， 本 书 对 网 络 的 讲解 清晰 且 富 有 文化 内 涵 。 
| Peter Dordal， 芝 加 哥 洛 约 拉 大 学 





我 在 一 门面 回 高 年 级 本 科 生 和 一 年 级 硕士 生 的 通信 网 络 基 础 课程 中 使 用 本 书 已 经 五 年 
多 了 ， 其 各 个 版 本 一 直 保 持 着 自己 的 优势 ， 即 不 仅 摘 述 协议 “如 何 工 作 ”， 还 描述 
么 这 样 工作 ”， 并 重点 解释 “为 什么 不 这 样 工作 ”。 这 是 一 本 培养 工程 直觉 的 书 ， 在 如 今 
个 技术 快速 变化 的 时 代 ， 培 养 学 生 在 设计 或 选择 下 一 代 系 统 时 做 出 idea 
重要 的 。 





Roch Guerin， 宾 夕 法 尼 亚 大 学 


这 是 一 本 优秀 的 计算 机 网 络 教材 ， 内 容 清晰 、 全 面 、 包 含 大 量 实例 。 作 者 将 网 络 分 解 
成 简单 的 、 可 管理 的 概念 ， 同 时 不 影响 技术 的 严谨 性 。 本 书 寻 求 网 络 体系 结构 设计 的 基本 
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我 必须 创造 一 个 体系 ， 否 则 我 将 沧 为 别人 体系 的 附庸; 我 不 要 推理 和 比较 ， 我 的 工作 
是 创造 





问题 : 建造 一 个 网 络 


假设 我 们 要 建造 一 个 计算 机 网 络 ， 它 有 发 展 到 全 球 性 规模 的 潜力 ， 并 且 能 够 支持 各 种 
各 样 的 应 用 ， 如 远程 会 议 、 视 频 点 播 、 电 子 商务 、 分 布 式 计 算 和 数字 化 图 书馆 等 。 那 么 要 
采用 什么 现 有 技术 作为 基础 构件 ， 以 及 使 用 何 种 软件 体系 结构 才能 把 这 些 构件 集成 为 一 个 
有 效 的 通信 服务 ? 本 书 最 主要 的 目标 就 是 回答 这 个 问题 ， 首 先 描 述 可 用 的 攀 件 ， 然后 说 明 
如 何 使 用 它们 从 头 开 始 建造 一 个 网 络 。 

在 理解 如 何 设 计 计 算 机 网 络 之 前 ， 我 们 首先 应 该 在 “什么 是 计算 机 网 络 ” 这 一 问题 上 
达成 共识 。 曾 经 有 一 段 时 期 ， 网 络 (network) 一 词 是 指 用 于 将 旺 终 端 连接 到 大 型 机 的 哩 
行 线 集 合 。 其 他 重要 的 网 络 包括 语音 电话 网 络 和 用 于 传播 视频 信号 的 有 线 电视 网 络 。 这 些 
网 络 的 主要 共同 点 是 专门 处 理 某 种 特定 类 型 的 数据 (按键 、 音频 或 视频 ) ， 并 且 通 常 连接 
到 专用 设备 〈 终 端 、 手 持 接收 器 和 电视 机 ) 。 

计算 机 网 络 与 其 他 类 型 的 网 络 有 什么 区 别 ? 也 许 计算 机 网 络 最 重要 的 特征 就 是 通用 
性 。 计算机 网 络 主要 由 通用 可 编程 硬件 来 构建 ， 并 且 不 需要 为 诸如 打 电 话 或 传输 电视 信号 
那样 的 特定 应 用 做 任何 优化 。 相 反 ， 计 算 机 网 络 能 够 传输 多 种 不 同类 型 的 数据 ， 并 且 支 持 
各 种 各 样 不 断 增 加 的 应 用 。 今 天 的 计算 机 网 络 正 越 来 越 多 地 接管 以 前 由 单一 用 途 网 络 执行 的 功 
能 。 本 章 考察 计算 机 网 络 的 一 些 典 型 应 用 ， 然 后 讨论 网 络 设计 者 为 支持 这 些 应 用 必须 要 了 解 的 
内 容 。 

一 旦 我 们 清楚 这 些 需 求 ， 接 下 来 该 怎么 做 呢 ? 幸运 的 是 ， 我 们 不 是 要 建造 第 一 个 网 
络 。 其 他 人 已 经 先 于 我 们 完成 了 这 项 任务 ， 其 中 最 著名 的 是 因特网 研究 人 员 。 我 们 将 利用 
在 因特网 构建 中 得 到 的 丰富 经 验 来 指导 我 们 的 设计 。 这 些 经 验 体 现在 网 络 体系 结构 (net- 
work ee 中 ， 网 络 体系 结构 指明 可 用 的 软 硬 件 构件 ， 并 且说 明 如 何 将 它们 组 织 
起 来 构成 一 个 完整 的 网 络 系统 。 

PaE et i 理解 如 何 使 用 或 管理 网 络 、 如 何 开发 网 络 应 用 也 很 重要 。 现 
在 ， 大 部 分 家 庭 、 办 公 室 或 车 里 都 有 计算 机 网 络 ， 所 以 使 用 网 络 不 再 是 少数 专家 的 事情 。 
同时 ， 随 着 智能 手机 等 可 编程 联网 设备 的 激增 ， 将 会 有 更 多 的 人 从 事 网 络 应 用 开发 。 因 
此 ， 我 们 需要 从 多 个 视角 来 分 析 网 络 : 网 络 建造 者 、 网 络 运营 者 、 应 用 开发 者 。 

为 了 理解 如 何 建 造 、 运 党 网 络 和 进行 网 络 编程 ， 本 革 将 阐述 四 项 内 容 。 首 和 完 ， 揭 示 不 
同 应 用 和 不 同人 群 对 网 络 的 需求 ; 第 二 ， 引 入 网 络 体 系 结构 的 概念 ， 它 是 本 书后 续 部 分 的 
基础 ; 第 三 ， 介 绍 实现 计算 机 网 络 的 几 个 关键 因 系 ; 最 后 ， 介绍 衡量 计算 机 网 络 性 的 关 
键 度量 标准 。 


1.1 应 用 


许多 人 是 通过 各 种 应 用 来 了 解 因特网 的 ， 例 如 ， 万 维 网 、 电 子 邮 件 、 在 线 社交 网 络 、 
音频 流 和 视频 流 、 即 时 通信 和 文件 共享 。 换 言 之 ， 我 们 是 作为 网 络 用 户 (user) 来 访问 因 
特 网 的 。 因 特 网 用 户 是 访问 因特网 的 最 大 群体 ,但 还 有 其 他 几 个 重要 的 群体 。 有 一 群 人 
创造 (create) 应 用 ， 这 个 群体 近 几 年 扩展 明显 ， 原 因 是 强大 的 编程 平台 和 智能 手机 等 新 设 
备 为 快速 开发 应 用 并 将 其 投放 更 大 的 市 场 创 造 了 新 机 会 。 还 有 一 群 人 运营 (operater) 或 管理 
(manage) 网 络 ， 这 多 半 是 幕后 工作 ,但 是 非常 关键 旦 通常 很 复杂 。 随 着 家 庭 网 络 的 普及 ， 
越 来 越 多 的 人 正在 变 成 某 种 意义 上 的 网 络 运 营 者 。 最 后 ， 还 有 那些 设计 (design) 和 构建 
(build) 组 成 因特网 的 设备 和 协议 的 人 。 最 后 这 个 群体 是 网 络 教科 书 (如 本 书 ) 的 传统 目标 
读者 ， 本 书 将 继续 将 这 个 群体 作为 主要 关注 对 象 。 然 而 ， 在 本 书 中 ,我们 也 考虑 应 用 开发 者 
和 网 络 运 营 者 的 视角 。 考 虑 这 些 视 角 能 够 使 我 们 更 好 地 理解 网 络 需 要 满足 的 不 同 需求 。 应 用 
开发 者 如 果 能 够 理解 底层 技术 的 工作 原理 及 其 与 应 用 的 交互 方式 ， 他 们 就 能 开发 出 更 好 的 应 
用 。 所以， 在 理解 如 何 建造 网 络 之 前 ， 先 来 仔细 看 看 当今 网 络 所 支持 的 应 用 类 型 。 | 


用 分 类 


万 维 网 是 一 种 将 因特网 从 大 多 由 科学 家 和 工程 师 所 使 用 的 有 些 星 梁 的 工具 跃升 为 当今 
主流 现象 的 因特网 应 用 。 万 维 网 已 经 变 成 了 一 个 如 此 强大 的 平台 ， 以 至 于 很 多 人 都 将 它 与 
因特网 混淆 了 (就 像 “Interwebs”)， 而 且 ， 将 万 维 网 看 作 一 个 单一 应 用 有 点 硅 张 。 

.万维网 采用 基本 形式 提供 了 一 个 直观 且 简 单 的 界面 。 用 户 浏览 有 很 多 文本 和 图 形 对 象 
的 网 页 时 ， 单 击 他 们 想 进 一 步 了 解 的 对 象 ， 就 会 弹出 相应 的 新 网 页 。 大 多 数 人 都 明日 在 这 
个 应 用 的 背后 ， 是 网 页 上 的 每 个 可 选 对 象 都 绑 定 了 一 个 指向 下 一 个 真 面 的 标识 符 或 要 浏览 
的 对 象 。 这 个 标识 符 称 为 统一 资源 定位 符 (Uniform Resource Locator; URL), 它 提 供 了 
一 种 标识 所 有 通过 浏览 器 能 浏览 到 的 对 象 的 方法 。 举 个 例子 ; http;//www. cs. princeton. 
edu/~llp/index. html。 这 是 本 书 一 名 作者 的 信息 页 面 的 URL: 字符 串 http 表明 要 下 载 页 面 
应 使 用 超 文本 传输 协议 (Hyper Text: Transfer Protocol, HTTP), www. cs. princeton. edu 是 
提供 该 网 页 的 计算 机 的 名 字 ， 而 一 lp/index. html 唯一 标识 Larry 在 该 网 站 的 主页 。 

然而 ， 大 多 数 用 户 并 不 清楚 ， 在 单 击 这 样 一 个 URL 后 ， 在 因特网 上 可 能 需要 交换 多 
ATLA, UREA RB ARM RN SAR, WARES. AENA 
中 ,6 条 消息 用 于 将 服务 器 名 (www. cs. princeton. edu) 翻译 成 它 所 对 应 的 网 际 协议 
(Internet Protocol, IP) 地 址 (128.112. 136. 35)，3 条 消息 用 于 建立 从 浏览 器 到 服务 器 之 
间 的 传输 控制 协议 (Transmission Control Protocol, TCP) 连接 ，4 条 消 息 用 于 浏览 器 发 
送 HTTP 的 “GET” 请 求 ， 并 使 服务 器 回 送 被 请 求 的 页 面 ( 以 及 双方 确认 收 到 消息 )， 还 
有 4 条 消息 用 于 拆除 TCP 连接。 当然 ,这 不 包含 因特网 节点 全 天 交换 的 数 以 百 万 计 的 消 
息 ， 这 些 消息 只 是 让 节点 相互 知道 彼此 的 存在 ， 并 准备 提供 网 页 服务 ， 把 机 器 名 翻译 成 网 
络 地 址 ， 并 将 各 种 消息 向 它们 的 最 终 目的 地 转发 。 \ | 
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务 束 使 用 了 这 种 技术 。 虽 然 我 们 经 常 从 网 站 上 发 起 流 会 话 ， 但 传播 音频 和 视频 与 获取 由 文 
本 及 图 片 组 成 的 网 页 存在 一 些 重 要 的 区 别 。 例 如 ， 用 户 一 般 不 想 下 载 完整 个 视频 文件 〈 这 
个 过 程 需要 几 分 钟 到 几 小 时 ) 才 开 始 观 看 。 以 流 的 方式 传输 音频 和 视频 意味 着 以 一 种 更 有 




















时 效 性 的 方式 从 发 送 方向 接收 方 传输 消息 ， 接 收 方 可 以 在 收 到 消息 后 立即 播放 视频 或 音频 。 

注意 ， 流 式 应 用 与 传统 的 网 页 文本 或 静态 图 片 传输 的 区 别 是 ， 人 们 以 连续 的 方式 欣 党 
音频 流 和 视频 流 ， 跳 音 或 视频 停滞 等 间断 是 不 能 接受 的 。 相 比 之 下 ， 文 本 网 页 可 以 以 位 或 
块 为 单位 来 传输 和 阅读 。 这 种 区 别 会 影响 网 络 对 不 同类 型 应 用 的 支持 方式 。 

一 种 略 有 不 同 的 应 用 类 型 是 实时 音频 和 视频 。 这 些 应 用 比 流 应 用 有 更 严格 的 时 间 约 
R. MEH IP 电话 应 用 (如 Skype) 或 视频 会 议 应 用 时 ， 参 与 者 之 间 的 交互 必须 是 实时 
的 。 一 端的 用 户 做 一 个 动作 ， 这 个 动作 必须 尽快 显示 在 另 一 端 。 当 一 个 人 试图 打 断 另 一 个 
人 时 ， 被 打 断 的 人 必须 尽快 8 听 到 并 决定 是 否 人 允许 被 打 断 ， 或 者 继续 说 话 而 不 理会 打 断 。 
在 这 种 环境 下 ， 太 长 的 延迟 会 导致 系统 无 法 使 用 。 与 视频 点 播 相 比 ， 如 果 从 用 户 打 开 视 频 
到 第 一 幅 图 像 被 显示 出 来 用 了 几 秒 钟 ， 那 么 这 个 服务 仍 可 接受 。 此 外 ， 交 互 式 应 用 通常 需 
要 有 双向 流动 的 音频 或 视频 ， 而 流 式 应 用 则 大 多 只 向 一 个 方向 发 送 音 频 或 视频 

因特网 上 运行 的 视频 会 议 工具 在 20 世纪 90 年 代 早 期 就 开始 出 现 了 ， 但 直到 过 去 几 年 
里 才 得 到 广泛 的 普及 ， 因 为 网 速 更 快 ， 更 强大 的 计算 机 也 更 加 普及 。 图 1-1 显示 了 一 个 视 
频 会 议 系 统 的 例子 。 就 像 下 载 网 页 不 只 是 满足 视觉 需要 一 样 ， 视 频 应 用 也 是 这 样 。 例 如 ， 
使 视频 内 容 适 合 在 低 带 宽 网 络 中 传输 ， 或 者 确保 视频 和 音频 保持 同步 并 及 时 到 达 来 得 到 较 
好 的 用 户 体验 ， 这 些 都 是 网 络 和 协议 设计 者 不 得 不 考虑 的 问题 。 我 们 将 在 本 书 的 后 面 考察 
这 些 问题 ， 以 及 很 多 与 多 媒体 应 用 相关 的 其 他 问题 。 
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图 1-1 一 个 包含 视频 会 议 的 多 媒体 应 
尽管 这 只 是 两 个 例子 ,但 从 网 上 下 载 页 面 和 参加 视频 会 议 足 以 说 明 因 特 网 应 用 的 多 样 


O 不 完全 是 “ 越 快 越 好 ”， 人 类 因素 研究 表明 ， 300ms 是 打 电 话 时 人 类 人 够 忍受 的 往返 时 延 的 合理 上 限 ， 超 过 这 
个 上 上限， 人 们 就 要 抱怨 了 ，100ms 的 时 延 看 起 来 更 好 。 


IF 


性 ， 也 暗示 了 因特网 设计 的 复杂 性 。 我 们 将 在 后 面 描述 一 个 更 完整 的 应 用 分 类 ， 来 指导 我 
们 讨论 关键 的 设计 决策 ， 从 而 建造 、 运 营 和 使 用 能 够 支持 大 量 不 同 应 用 的 网 络 。 第 9 章 作 
为 全 书 的 结束 部 分 ， 将 重新 讨论 这 两 种 特定 的 应 用 以 及 其 他 几 种 在 当今 因特网 上 流行 的 应 
用 。 现 在 ， 快 速 浏 览 几 个 典型 应 用 就 足以 让 我 们 开始 考察 为 了 建造 支持 多 种 应 用 的 网 络 所 
必须 解决 的 问题 .9 | 


1.2 需求 


我 们 已 经 制定 了 一 个 宏伟 的 目标 : 了 解 如 何 从 最 底层 开始 建造 一 个 计算 机 网 络 。 要 实 
现 这 个 目标 ， 我 们 将 从 基本 原理 开始 ， 然 后 提出 在 建造 实际 网 络 时 经 常 遇 到 的 各 种 问题 。 
在 每 一 步 中 ， 我 们 会 利用 现 有 协议 说 明 各 种 可 行 的 设计 方案 ， 但 是 并 不 将 这 些 人 工 设计 的 
协议 视 作 不 变 的 真理 。 相 反 ， 我 们 还 要 不 断 地 提出 GEES) 网 络 为 什么 (why) 要 如 此 
设计 的 问题 。 在 力求 理解 现今 网 络 的 工作 方式 的 同时 ， 重 要 的 是 认识 基本 概念 ， 因 为 随 着 
技术 的 发 展 和 新 应 用 的 不 断 出 现 ， 网 络 的 变化 日 新 月 异 。 依 照 我 们 的 经 验 ， 一 旦 人 们 理解 
了 基本 思想 ， 那 么 对 于 遇 到 的 任何 新 协议 ， 消 化 和 吸收 起 来 都 将 变 得 相对 容易 。 


如 前 所 述 ， 学 习 网 络 的 人 有 不 同 的 视角 。 当 我 们 写本 书 第 1 版 时 ， 大 部 分 人 根本 不 能 
访问 因特网 ， 那 些 能 访问 因特网 的 人 都 是 在 工作 时 、 在 大 学 里 或 在 家 里 通过 拨号 调制 解 调 
器 来 访问 ， 流 行 的 应 用 也 届 指 可 数 。 因 此 ， 就 像 当 时 的 大 部 分 教材 一 样 ， 我 们 的 书 重点 关 
注 设计 联网 设备 和 协议 的 人 。 现 在 我 们 继续 关注 这 个 视角 ， 和 希望 大 家 在 阅读 本 书后 明日 如 
何 设 计 未 来 的 联网 设备 和 协议 。 但 是 ， 我 们 也 想 履 盖 另 外 两 个 越 来 越 重要 的 群体 的 视角 : 
开发 网 络 应 用 的 人 以 及 管理 或 运营 网 络 的 人 。 让 我 们 想 一 下 这 三 个 群体 会 如 何 列 举 他 们 对 
网 络 的 需求 ， 

e 应 用 程序 员 (application programmer) 会 列 出 应 用 所 需 的 服务 ， 例 如 ， 要 保证 应 
用 程序 发 出 的 每 条 信息 能 在 一 定 的 时 间 内 准确 无 误 地 传递 ， 或 随 着 用 户 的 移动 在 
不 同 的 网 络 连接 之 间 平 稳 切 换 的 能 
网 络 运 营 者 (network operator) 会 列 出 系统 易于 管理 的 特性 ， 例 如 ， 故 障 易 于 隔 
离 、 新 设备 能 够 加 入 到 网 络 中 并 正确 配置 、 易 于 根据 网 络 使 用 情况 进行 计 费 。 
网 络 设 计 者 (network designer) 会 列 出 性 价 比 高 的 设计 所 具备 的 属性 ， 例 如 ， 有 
效 地 利用 网 络 资源 和 公平 地 分 配给 不 同 的 用 户 。 性 能 问题 可 能 也 很 重要 。 

本 方 试图 将 这 些 不 同 视 角 提 升 成 关于 驱动 网 络 设计 的 主要 关注 点 的 一 个 高 层次 的 概 
述 ， 同 时 阐明 本 书 所 要 解决 的 挑战 ， 


1.2.2 可 扩展 的 连通 性 


很 明显 ， 网 络 必须 首先 提供 若干 个 计算 机 之 间 的 连通 性 。 有 时 候 ， 只 需要 建立 一 个 由 
选 定 的 几 台 计算 机 连 成 的 有 限 网 络 。 但 事实 上 ， 鉴 于 隐私 性 和 安全 性 的 考虑 ， 许 多 专用 的 
(企业 的 ) 网 络 都 在 限制 接 人 网 络 的 计算 机 方面 有 明确 的 目标 。 相 反 ， 其 他 一 些 网 络 ( 因 
特 网 是 最 明显 的 例子 ) 则 具有 连 入 世界 上 所 有 计算 机 的 潜力 。 如 果 一 个 系统 设计 支持 任意 
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“日 参见 “实验 基础 ”。 
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规模 的 扩展 ， 则 称 为 可 扩展 的 (scale)。 本 书 以 因特网 为 模型 来 解决 可 扩展 性 方面 的 挑战 。 
链 路 、 节 点 和 云 形 图 | 

为 了 更 全 面 地 理解 连通 性 需求 ， 我 们 需要 更 仔细 地 考察 计算 机 是 如 何 连接 到 网 络 的 。 

网 络 连 通 性 体现 在 多 个 层次 上 。 在 最 底层 ， 网 络 可 以 由 两 台 或 更 多 台 计 算 机 通过 某 种 物理 

介质 (如 同 轴 电 缆 或 光纤 ) 直接 相连 。 我 们 称 这 样 的 物理 介质 为 链 路 〈link) ， 并 称 被 连接 

permet 点 〈node) 。( 有 时 候 ， 节 点 是 指 更 为 特殊 的 硬件 而 不 是 指 计算 机 ， 这 种 区 别 

我 们 通常 不 予 区 分 。) 如 图 1-2 所 示 ， 有 时 一 条 物理 链 路 仅 存 在 于 一 对 节点 之 间 (这 样 的 

链 路 称 为 点 到 点 (point-to-point) 链 路 ) ， 而 在 其 他 情况 下 ， 多 个 节点 可 以 共享 一 条 物理 

链 路 (这 样 的 链 路 称 为 多 路 访问 (multiple-access) E). TRE, WiZ HA Wi- 

Fi 网 络 提 供 的 链 路 ， 成 为 越 来 越 重 要 的 多 路 访问 链 路 。 通 常情 况 下 ， 多 路 访问 链 路 的 大 小 
是 有 限 的 ， 包 括 它 们 所 能 覆盖 的 地 理 范 围 和 所 能 连接 的 节点 数目 。 





b) 多 路 访问 
图 1-2 直接 链 路 


如 果 计 算 机 网 络 被 局 限于 所 有 节点 都 通过 一 个 公共 的 物理 介质 彼此 直接 相连 的 情况 ， 
那么 ， 要 入 网络 所 能 连接 的 计算 机 数目 非常 有 限 ， 要 么 从 每 个 节点 引出 的 线路 数目 很 快 会 
变 得 难以 控制 且 代 价 高 昂 。 幸 运 的 是 两 个 节点 之 间 的 连通 性 并 不 一 定 意 味 着 它们 之 间 有 下 
接 的 物理 连接 ， 通 过 一 系列 合作 节点 可 以 实现 间接 的 连通 性 。 下 面 两 个 例子 说 明了 一 组 计 
算 机 是 如 何 间接 连通 的 。 

图 1-3 显示 了 一 组 节点 ， 每 个 节点 都 连 到 一 条 或 多 条 点 到 点 链 路 上 。 那 些 连 着 至 少 两 
条 链 路 的 节点 运行 软件 ， 用 于 将 从 一 条 链 路 收 到 的 数据 转发 到 另 一 条 链 路 上 。 如 有 果 将 这 些 
节点 按 系 统 化 的 方法 进行 组 织 ， 就 形成 一 个 交换 网 (switched network) 。 交 换 网 有 很 多 种 
类 型 ， 电 路 交换 (circuit switched) 和 分 组 交换 (packet switched) 是 其 中 最 为 常见 的 两 
种 。 前 者 主要 用 于 电话 系统 ， 而 后 者 用 于 绝 大 多 数 的 计算 机 网 络 ， 本 书 将 侧重 后 者 。 (但 
是 ， 电路 交换 在 光 网 络 领 域 将 要 东山 再 起 ， 因 为 对 网 络 容量 需求 的 不 断 增 加 使 得 电路 交换 
变 得 更 重要 。) 分 组 交换 网 最 主要 的 特点 是 网 络 中 的 节点 彼此 间 发 送 离散 的 数据 块 。 可 以 
将 这 些 数据 块 看 作 应 用 数据 ， oe 一 封 电 子 邮件 或 一 幅 图 像 。 我 们 将 每 个 数据 块 
称 为 一 个 分 组 (packet) 或 一 & (message)， 目 前 这 两 个 术语 可 以 互 换 使 用 ， 但 它们 
也 不 是 完全 相同 ， part pipe seria 

分 组 交换 网 一 般 使 用 一 种 叫 作 存储 转发 Cstore-and-forward) 的 策略 。 顾名思义 ， 存 
储 转 发 网 络 中 的 每 个 节点 先 通过 某 条 链 路 接收 一 个 完整 的 分 组 ， 将 这 个 分 组 存储 在 内 存 
中 ， 然后 将 整个 分 组 转发 给 下 一 一 个 节点 。 与 之 不 同 的 是 ， 电 路 交换 网 首先 通过 一 系列 链 路 





图 1-3 交换 网 


建立 一 条 专用 电路 ， 然 后 允许 源 节点 通过 这 条 链 路 将 比特 流 发 送 到 目标 节点 。 在 计算 机 网 
络 中 使 用 分 组 交换 而 不 使 用 电路 交换 的 主要 原因 是 分 组 交换 效率 较 高 ， 这 个 问题 将 在 下 一 
节 讨 论 。 

图 1-3 中 的 云 形 图 将 实现 〈implement) 网 络 的 内 部 节点 (内 部 节点 通常 称 为 交换 机 
(switch) ， 其 基本 功能 是 存储 和 转发 分 组 ) 与 使 用 〈use) 网 络 的 外 部 节点 (外 部 节点 通常 
” 称 为 主机 〈host) ， 其 任务 是 支持 用 户 并 运行 应 用 程序 ) 区 分 开 来 。 还 要 注意 ， 图 1-3 中 的 
云 形 图 是 计算 机 网 络 中 最 重要 的 图 标 之 一 。 一 般 来 讲 ， 我 们 可 以 利用 云 形 图 表示 任何 类 型 
的 网 络 ， 即 无 论 网 络 是 一 条 点 到 点 链 路 、 一 条 多 路 访问 链 路 或 是 一 个 交换 网 。 因 此 ， 无 论 
何 时 在 图 上 看 到 云 形 图 ， 都 可 以 把 它 看 作 本 书 讨论 的 任意 一 种 网 络 技 术 的 表示 .9 

计算 机 间接 连通 的 另 一 种 方法 如 图 1-4 所 示 。 在 这 种 情况 下 ,一 些 独 立 的 网 络 
( 云 ) 互联 形成 一 个 互联 网 (internetwork， 简 称 internet) 。 我 们 依照 因特网 的 习惯 ， 将 
通称 的 互联 网 用 “i” 开 头 的 intenet 表示 ， 而 将 当前 运行 的 TCP/IP 因特网 用 “I” 开头 
的 Internet 表示 。 连 接 到 两 个 或 多 个 网 络 的 节点 通常 称 为 路 由 器 (router) 或 网 关 (gate 
way) ， 它 与 交换 机 所 起 的 作用 大 致 相同 ， 即 把 消息 从 一 个 网 络 转发 到 另 一 个 网 络 。 注 
意 ， 互 联网 本 身 可 被 看 作 是 另 一 种 类 型 的 网 络 ， 也 就 是 说 ， 一 个 互联 网 可 由 多 个 互联 网 互 
联 而 成 。 这 样 ， 我 们 可 以 通过 将 云 互 联 成 更 大 的 云 来 递归 地 构建 任意 大 的 网 络 。 可 以 认为 
将 区 别 很 大 的 网 络 互联 起 来 的 思想 是 因特网 的 根本 性 创新 ， 早 期 因特网 架构 师 所 做 的 优秀 
的 设计 决策 使 因特网 成 功 扩展 到 全 球 规模 ， 并 拥有 几 十 亿 个 节点 ， 这 些 我 们 将 在 后 面 进 行 


讨论 。 


O ”有 趣 的 是 ， 这 种 使 用 云 的 方式 比 云 计算 这 个 术语 早 至 少 几 十 年 ， 但 两 种 用 法 之 间 是 有 关联 的 ， 我 们 将 在 后 面 


讨论 。 





图 1-4 网 络 的 互联 


仅仅 将 主机 彼此 直接 或 间接 相连 并 不 意味 着 已 经 成 功 地 提供 了 主机 到 主机 的 连通 性 ， 
连通 性 的 最 终 要 求 是 每 个 节点 必须 能 够 指明 它 想 与 网 络 上 哪些 其 他 市 点 进行 通信 。 通 过 给 
每 个 节点 指定 一 个 地 址 Caddress) 可 以 做 到 这 一 点 。 地 址 是 标识 节点 的 字 节 串 ， 也 就 是 说 ， 
网 络 可 以 使 用 节点 地 址 来 区 分 该 节点 与 连接 到 网 络 的 其 他 节点 。 当 一 个 源 节 点 通过 网 络 传输 
一 条 消息 给 一 个 特定 的 目的 节点 时 ， 它 必须 指明 目的 节点 的 地 址 。 如 果 发 送 和 接收 节点 不 是 
直接 相连 的 ， 那 么 网 络 上 的 交换 机 和 路 由 老将 使 用 这 个 地 址 来 确定 如 何 将 消息 转发 到 目标 节 
点 。 根 据 目 的 节点 地 址 来 确 乍 如 何 将 消息 转发 到 目的 节点 的 过 程 称 为 路 由 (routing), 

EIRKF SIMBAD PRR PRB RIKI RSE SAWP ( 单 播 Cuni- 
cast))。 尽 管 这 种 情况 最 常见 ， 但 源 节 点 也 可 能 癌 网 络 上 的 所 有 市 点 广播 《broadcast) 一 
条 消息 ， 或 者 源 节 点 要 发 一 条 消息 给 其 他 节点 的 某 个 子 集 ， 而 并 非 所 有 市 点 ， 这 种 情况 称 
为 多 播 (multicast) 。 因 此 ， 除 了 特定 节点 的 地 址 以 外 ， 网 络 的 另 一 个 需求 是 支持 多 播 地 
址 和 广播 地 址 。 ` 

结论 ”通过 以 上 讨论 ， 我 们 可 以 将 网 络 递归 地 定义 为 通过 一 条 物理 链 路 相连 的 两 

个 或 多 个 节点 ， 或 者 说 通过 一 个 节点 连接 的 两 个 或 多 个 网 络 。 换 言 之 ， 网 络 可 以 

由 网 络 的 谋 套 来 构成 ， 在 最 底层 ， 网 络 由 菜 种 物理 介质 实现 。 实 现 计算 机 网 络 连 

通 性 的 一 个 关键 是 为 网 络 中 的 每 个 可 达 节 点 定义 一 个 地 址 (包括 支持 广播 和 多 

播 )， 并 且 能 够 利用 这 个 地 址 将 消息 发 往 正确 的 目的 节点 。 | 


1.2.3 BETH RAS | 
如 上 所 述 ， 本 书 侧重 介绍 分 组 交换 网 。 本 节 讲 解 计 算 机 网 络 的 关键 需求 
是 我 们 选择 分 组 交换 策略 的 直接 原因 。 | : 
给 定 一 个 节点 的 集合 ， 节 点 之 间 通 过 一 个 嵌 套 的 网 络 间 接 相连 ， 任 何 一 对 主机 都 可 能 
通过 一 系列 链 路 和 节点 互相 发 送 消 息 。 当 然 ， 我 们 不 仅仅 需要 支持 一 对 主机 之 间 的 通信 ， 





效率 ， 这 
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而 是 希望 提供 在 任何 一 对 主机 间 交 换 消息 的 能 力 。 那 么 ， 问 题 就 是 如 何 使 所 有 希望 通信 的 
主机 都 能 共享 网 络 ， 特 别 是 如 果 它 们 想 同 时 使 用 网 络 时 如 何 共享 。 假 如 这 个 问题 还 不 太 难 
解决 ， 那 么 当 多 个 主机 需要 同时 使 用 同一 条 链 路 (link〉 时 ， 应 该 如 何 实 现 共享 ? 

为 了 和 弄 清楚 主机 如 何 共享 一 个 网 络 ， 我 们 需要 引入 一 个 基本 概念 一 一 多 路 复 用 mul- 
tiplexing)， 意 思 是 系统 资源 在 多 个 用 户 之 间 共 享 。 直 观 上 可 将 多 路 复 用 与 一 个 分 时 计算 
机 系统 类 比 ， 一 个 物理 CPU 被 多 个 任务 共享 〈 多 路 复 用 ) ， 每 个 任务 都 认为 它 有 自己 的 专 
用 处 理 器 。 同 样 ， 由 多 个 用 户 发 送 的 数据 可 在 构成 网 络 的 多 条 物理 链 路 上 被 多 路 复 用 。 

为 了 理解 多 路 复 用 如 何 工 作 ， 考 察 图 1-5 所 示 的 简单 网 络 ， 网 络 左边 的 3 台 主 机 (发 
KA SI~S3) 通过 共享 一 个 只 包含 一 条 物理 链 路 的 网 络 癌 网络 右边 的 3 台 主 机 (接收 方 
RI~R3) 发 送 数据 。( 为 简单 起 见 ， 假 设 主机 S1 与 主机 R 通信 ， 依 此 类 推 .) 在 这 种 情 
况 下 ， 对 应 于 3 对 主机 的 3 个 数据 流通 过 交换 机 1 多 路 复 用 1 条 物理 链 路 ， 然 后 再 由 交换 
机 2 多 路 分 解 〈demnultiplex) 为 独立 的 数据 流 。 注 意 ， 我 们 有 意 对 “数据 流 ” 的 确切 含义 
含糊 其 辞 。 为 了 便于 讨论 ， 假 设 左边 的 每 台 主 机 有 大 量 的 数据 要 发 送 到 右边 对 应 的 主机 。 





图 1-5 在 一 条 物理 链 路 上 复 用 多 个 逻辑 流 


将 多 个 数据 流 多 路 复 用 到 一 条 物理 链 路 上 有 几 种 不 同 的 方法 。 一 种 常用 的 方法 是 同步 
时 分 多 路 复 用 (synchronous time-division multiplexing, STDM)。STDM 的 思想 是 将 时 间 
划分 为 等 长 的 时 间 片 ， 以 轮转 方式 使 每 个 数据 流 都 有 机 会 将 数据 发 送 到 物理 链 路 上 。 换 言 
之 ， 在 时 间 片 1 中 ,传输 从 S 发 到 RI 的 数据 ;在 时 间 片 2 中 ,传输 从 S2 发 到 R2 的 数 
据 ; 时 间 片 3 传输 从 S3 发 到 R3 的 数据 ， 同 时 ， 从 Sl 到 R1 的 数据 流 再 次 准备 开始 传输 ， 
这 个 过 程 不 断 重复 进行 。 另 一 种 方法 是 频 分 多 路 复 用 (frequency-division multiplexing, 
FDM). FDM 的 思想 是 将 每 个 流 以 不 同 的 频率 发 向 物理 链 路 ， 这 一 点 与 不 同 电视 台 以 不 同 
频率 在 电波 上 或 在 同 轴 电 缆 电 视 链 路 中 传输 电视 信和 号 很 相像 。 

尽管 原理 很 容易 理解 ， 但 STDM 和 FDM 都 有 两 个 方面 的 局 限 性 。 第 一 ， 如 果 有 一 个 
流 〈 主 机 对 ) 没有 数据 要 发 送 ， 它 占用 的 物理 链 路 〈 即 它 的 时 间 片 或 频率 ) 就 会 空闲 ， 即 
使 其 他 流 此 时 有 数据 要 发 送 也 无 法 使 用 。 例 如 ， 上 例 中 的 S3 必须 要 排 在 S1 和 S2 后 面 发 
送 数 据 ， 即 使 Sl1 和 S2 没有 数据 要 发 送 。 对 于 计算 机 通信 来 说 ， 一 条 链 路 空闲 的 时 间 可 能 
会 很 长 ， 例 如 ， 与 获取 页 面 的 时 间 相 比 ， 阅 读 Web 页 面 的 时 间 较 长 ， 而 在 阅读 页 面 时 ， 
链 路 是 空 闪 的 。 第 二 ，STDM 和 FDM 所 容纳 的 数据 流 的 最 大 数目 是 事先 固定 和 已 知 的 。 
在 STDM 的 情况 下 ， 修 改 时 间 片 的 大 小 、 添 加 额外 的 时 间 片 或 在 FDM 情况 下 加 入 新 频 
率 ， 都 是 不 实际 的 。 
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克服 上 述 不 足 的 多 路 复 用 形式 ， 也 是 本 书 使 用 最 多 的 多 路 复 用 形式 是 统计 多 路 复 用 
(statistical multiplexing) 。 尽管 这 个 名 字 本 映 令 人 费解 ， 但 统计 多 路 复 用 实际 上 非常 简 
单 ， 它 包括 两 个 关键 的 思想 。 首 先 ， 像 STDM 一 样 ， 它 是 按照 时 间 来 共享 物理 链 路 的 ， 
一 个 流 的 数据 先 被 传输 到 物理 链 路 上 ， 然 后 再 传输 另 一 个 流 的 数据 ， 依 此 类 推 。 然 而 ， 不 
同 于 STDM 的 是 ， 每 个 流 的 数据 是 根据 需要 传输 的 ， 而 不 是 在 一 个 预先 规定 的 时 间 片 进 
行 传输 。 这 样 ， 如 果 只 有 一 个 流 有 数据 要 发 送 ， 那么 它 不 必 等 到 它 的 时 间 片 到 来 就 可 以 发 
送 数 据 ， 这 样 ， 也 就 不 会 出 现 分 配给 其 他 流 的 时 间 片 白白 浪费 的 情况 。 正 是 这 种 避免 空闲 
时 间 的 方法 使 分 组 交换 具有 较 高 的 效率 。 

然而 ， 截 至 目前 的 定义 ， 统 计 多 路 复 用 没有 这 样 的 机 制 用 以 保证 所 有 流 最 终 都 有 机 会 
在 物理 链 路 上 传输 数据 。 也 就 是 说 ,一旦 一 个 流 开始 发 送 数 据 ， 我 们 需要 采用 某 种 方法 来 
限制 它 的 发 送 ， 使 得 其 他 流 能 够 有 机 会 传输 数据 。 考 虑 到 这 种 需求 ， 统 计 多 路 复 用 定义 每 
个 流 在 给 定 的 时 间 内 人 允许 传输 的 数据 块 大 小 的 上 界 。 这 个 限定 大 小 的 数据 块 通常 称 为 一 个 
分 组 〈packet) ， 用 以 与 应 用 程序 可 能 传输 的 任意 大 小 的 消息 (message) 作 区 分 。 因 为 分 
组 交换 网 限制 分 组 的 最 大 尺寸 ， 所 以 主机 可 能 无 法 用 一 个 分 组 发 送 一 条 完整 的 消息 。 源 节 
点 可 能 需要 将 消息 分 划 为 几 个 分 组 ， 接 收 者 再 把 这 些 分 组 重新 组 痛 成 原始 消息 。 

换言之 ， 每 个 流通 过 物理 链 路 发 送 一 系列 分 组 ， 以 分 组 为 单位 决定 下 一 次 发 送 分 组 的 
流 。 注 意 ， 如 果 只 有 一 个 流 有 数据 要 发 送 ， 它 可 以 连续 地 发 送 一 个 分 组 序列 。 然 而 ， 如 果 
有 多 个 流 要 发 送 数 据 ， 那 么 ， 它 们 的 分 组 将 会 在 链 路 上 交 答 发送。 图 1-6 描述 了 一 个 交换 
机 将 来 自 多 个 源 节 点 的 分 组 多 路 复 用 到 一 条 共享 链 路 上 。 





图 1-6 交换 机 将 来 自 多 个 源 节点 的 分 组 多 路 复 用 到 一 条 共享 链 路 上 


确定 在 一 个 共享 链 路 上 发 送 哪 一 个 分 组 有 多 种 不 同 的 方法 。 如 图 1-5 所 示 ， 在 由 通过 
链 路 互联 的 交换 机 构成 的 网 络 中 ， 可 以 由 将 分 组 发 送 到 共享 链 路 上 的 交换 机 来 决定 发 送 分 
组 的 顺序 。( 正 如 我 们 下 面 将 要 看 到 的 ， 并 不 是 所 有 的 分 组 交换 网 都 包含 交换 机 ， 还 可 以 
用 其 他 机 制 来 决定 下 一 步 将 哪个 数据 流 的 分 组 送 到 链 路 上 。) 在 分 组 交换 网 中 ， 每 个 交换 
机 都 能 以 分 组 为 单位 独立 地 决定 发 送 顺 序 。 网 络 设计 者 面 对 的 问题 之 一 是 如 何以 一 种 公平 
的 方式 来 做 决定 。 例 如 ， 一 个 交换 机 可 以 设计 成 以 先进 先 出 〈FIFO) 的 方式 发 送 分 组 。 
另 一 种 设计 是 交换 机 以 循环 方式 转发 来 自 通过 该 交换 机 发 送 数据 的 每 一 个 不 同 的 数据 流 的 
分 组 。 这 样 做 可 以 确保 特定 的 数据 流 能 分 享 链 路 的 一 定 带宽 ， 或 者 确保 它们 的 分 组 在 交换 
机 中 的 延迟 不 会 超过 一 段 确 定 的 时 间 。 能 够 为 特定 数据 流 分 配 带宽 的 计算 机 网 络 有 时 称 为 
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支持 服务 质量 (Quality of Service, QoS), RATER 6 章 讨论 这 个 主题 。 

“ 另外， 值得 注意 的 是 ， 在 图 1-6 中 ， 由 于 交换 机 必须 把 三 个 进入 的 分 组 流 多 路 复 用 到 
一 条 输出 链 路 上 ， 所 以 交换 机 接收 分 组 的 速度 很 有 可 能 比 共享 链 路 传输 分 组 的 速度 快 。 此 
时 ， 交 换 机 不 得 不 将 分 组 缓存 在 内 存 中 。 如 果 在 较 长 的 一 段 时 间 内 ， 交 换 机 接收 分 组 的 速 
度 比 它 发 送 分 组 的 速度 快 ， 那 么 交换 机 将 最 终 耗 尽 其 缓存 空间 ， 一 些 分 组 就 不 得 不 被 丢 
弃 。 当 交换 机 处 于 这 种 状态 时 ， 称 为 拥塞 〈congested) 。 

结论 最 重要 的 是 ， 统 计 多 路 复 用 定义 了 一 种 有 效 的 方法 让 多 个 用 户 (例如 主机 

到 主机 的 数据 流 ) 以 细 粒 度 的 方式 共享 网 络 资源 ( 链 路 和 节点 )。 它 以 分 组 粒度 

将 网 络 链 路 分 配给 不 同 的 数据 流 ， 每 个 交换 机 能 够 以 分 组 为 单位 来 规划 如 何 使 用 

与 之 相连 的 物理 链 路 。 为 不 同 的 数据 流 公 平分 配 链 路 容量 以 及 处 理 拥 塞 是 统计 多 
路 复 用 面临 的 主要 挑战 。 | 
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描述 网 络 的 一 种 方式 是 根据 其 大 小 。 两 个 著名 的 例子 是 局 域 网 CLAN) 和 广域网 
(WAN) 。 前 者 的 范围 通常 用 在 1 公里 以 内 ， 而 后 者 则 可 以 是 世界 范围 的 。 其 他 网 络 被 归 
类 为 城 域 网 MAN)， 通 和 常 跨越 几 十 公里 。 这 种 划分 非常 有 趣 ， 原因 是 网 络 的 大 小 通常 预 
示 着 它 能 使 用 的 底层 技术 ， 其 中 一 个 关键 因素 是 数据 从 网 络 的 一 端 传播 到 另 一 端 所 花 的 时 
闻 。 我 们 将 在 后 面 几 章 中 更 详细 地 讨论 这 个 问题 。 

根据 有 趣 的 历史 记录 记载 ， 广 域 网 (wide area network) 这 个 术语 并 没有 用 在 第 一 个 
WAN 上 ， 因 为 当时 没有 其 他 类 型 的 网 络 需要 与 之 区 分 。 当 时 计算 机 非常 少 并 且 也 较 昂 
贵 ， 人 们 从 没 想 到 过 将 局 部 范围 内 的 所 有 计算 机 连 在 一 起 ， 因 为 在 那个 范围 内 只 有 一 合计 
算 机 。 只 有 当 计 算 机 开始 增多 ， 需 要 有 LAN WH, “WAN” 这 个 术语 才 被 引入 ， 用 来 描述 
将 地 理 位 置 较 远 的 计算 机 互联 起 来 的 更 大 的 网 络 。 

为 一 种 我 们 需要 了 人 解 的 网 络 是 SAN (现在 称 为 存储 区 域 网 (storage area network), 
但 以 前 也 被 称 为 系统 区 域 网 (System area network))。SAN 通常 限制 在 一 个 房间 里 ， 并 且 
把 一 个 大 的 计算 系统 的 各 种 组 件 连 接 起 来 。 例 如 ， 光 纤 信 道 是 一 种 常见 的 SAN 技术 ， 用 
来 将 高 性 能 计算 系统 连接 到 存储 服务 器 和 数据 仓库 上 。 尽 管 本 书 没 有 详细 地 描述 这 类 网 
络 ， 但 了 解 它们 还 是 很 有 意义 的 ， 因 为 它们 通常 在 性 能 方面 引领 潮流 ， 而 且 将 这 类 网 络 连 
入 LAN È WAN 的 情况 也 越 来 越 多 。 | 


1.2.4 支持 通用 服务 


前 一 节 概 述 了 在 一 组 主机 间 提 供 高 性 价 比 的 连通 性 所 面临 的 挑战 ， 但 是 ， 将 计算 机 网 
络 仅 视 作 是 在 一 系列 计算 机 之 间 传 输 分 组 未 免 过 于 简单 。 更 准确 地 说 ， 应 该 将 计算 机 网 络 
视 为 能 够 为 分 布 在 这 些 计 算 机 上 的 一 系列 应 用 进程 提供 彼此 通信 的 手段 。 换 言 之 ， 计 算 机 
网 络 的 下 一 个 需求 是 让 连接 到 网 络 中 的 主机 上 运行 的 应 用 程序 能 够 以 一 种 有 意义 的 方式 进 
行 通信 。 从 应 用 开发 者 的 角度 来 看 ， 网 络 应 该 使 其 生活 更 美好 。 

当 两 个 应 用 程序 需要 彼此 通信 时 ， 并 不 仅仅 是 主机 间 的 消息 传输 ， 而 要 涉及 很 多 复杂 
的 过 程 。 一 种 选择 是 应 用 程序 设计 者 把 所 有 复杂 的 功能 都 集成 在 每 个 应 用 程序 中 。 然 而 ， 
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由 于 很 多 应 用 需要 通用 的 服务 ， 所 以 更 明智 的 做 法 是 一 次 性 地 实现 这 些 通用 服务 ， 然后 应 
用 设计 者 再 用 这 些 服务 构建 所 需 的 应 用 。 如 何 确 定 正 确 的 通用 服务 集 是 网 络 设计 者 面临 的 
一 个 挑 成 ， 其 目标 是 对 应 用 隐藏 网 络 的 复杂 性 但 也 不 过 分 限制 应 用 设计 者 。 

直观 地 讲 ， 我 们 将 网 络 视 作为 应 用 层 进程 提供 逻辑 信道 (channel)， 使 得 它们 能 够 基 
于 人 逻辑 信道 相互 通信 ， 每 个 信道 提供 应 用 程序 所 需 的 服务 集 。 换 言 之 ， 正 如 我 们 用 云 抽象 
地 表示 计算 机 之 间 的 连通 性 一 样 ， 现 在 ， 我 们 将 信道 视 作 一 个 进程 与 男 一 个 进程 的 连接 通 
道 。 图 1-7 显示 了 一 对 应 用 层 进程 在 逮 辑 信道 上 通信 的 情况 ， 逻 辑 信 道 是 在 连接 主机 的 网 
络 〈 云 ) 上 实现 的 。 我 们 可 以 把 信道 看 成 连接 两 个 应 用 程序 的 一 条 管道 ， 发 送 应 用 程序 把 
数据 放 在 管道 的 一 端 ， 并 希望 数据 能 被 网 络 传输 给 位 于 管道 另 一 端的 应 用 程序 。 





图 1-7 在 抽象 信道 上 进行 通信 的 进程 


确定 信道 应 该 给 应 用 程序 提供 什么 功能 是 当前 面临 的 挑战 。 例 如 ， 应 用 是 否 需要 保证 
在 信道 上 发 送 的 消息 被 可 靠 地 传输 ， 或 者 说 是 否 人 允许 丢失 某 些 消息 ? 应 用 要 求 消息 必须 按 
它们 发 送 时 的 顺序 到 达 接 收 进程 ， 还 是 接收 者 并 不 关心 消息 到 达 的 顺序 ? 网 络 需要 保证 没 
有 第 三 方 在 信道 上 窃听 ， 还 是 并 不 在 意 隐私 问题 ? 总 之 ， 网 络 提供 各 种 不 同类 型 的 信道 
每 个 应 用 选择 它 所 需要 的 类 型 。 下 面 将 说 明定 义 有 用 信道 的 设计 思路 。 

1. 确定 通用 通信 模式 

设计 抽象 信道 首先 需要 理解 一 些 典型 应 用 的 通信 需求 ， 然后 提取 出 它们 共同 的 通信 需 
求 ， 最 后 具体 化 为 网 络 中 符合 这 些 需 求 的 功能 。 

最 早 被 所 有 网 络 支持 的 应 用 之 一 是 文件 访问 程序 ， 如 文件 传输 协议 (File Transfer 
Protocol, FTP) 或 网 络 文件 系统 (Network File System，NFS) 。 尽 管 很 多 细节 不 同 ， 例 
如 ， 是 通过 网 络 传输 整个 文件 还 是 在 给 定 的 时 间 只 读 / 写 文件 的 一 块 ,但 远程 文件 访问 的 
通信 组 件 的 特点 都 是 有 一 对 进程 ， 一 个 进程 请 求 读 / 写 文件 ， 另 一 个 进程 响应 这 个 请 求 。 
请 求 访问 文件 的 进程 称 为 客户 端 〈client) ， 支 持 文件 访问 的 进程 称 为 服务 器 (server). 

读 文 件 时 ， 客 户 端 给 服务 器 发 一 个 小 的 请 求 消息 ， 而 服务 器 用 一 个 包含 文件 数据 的 大 
消息 作为 响应 。 写 操作 按照 相反 的 方式 进行 ， 客 户 端 给 服务 器 发 一 个 包含 将 被 写 人 的 数据 
的 大 消息 ， 而 服务 器 用 一 NR A 
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数字 化 图 书馆 是 一 个 比 文件 传输 更 复杂 的 应 用 ， 但 是 它 需 要 的 通信 服务 是 类 似 的 。 例 
如 ， 国 际 计 算 机 协会 (Association for Computing Machinery, ACM) 运营 一 个 大 型 的 计 
算 机 科学 文献 数字 图 书馆 ， 网 址 是 http://portal. acm. org/dl ctm。 这 个 图 书馆 提供 各 种 
各 样 的 搜索 和 浏览 功能 来 帮助 用 户 找到 他 们 想 要 的 文章 ， 但 最 终 其 做 得 最 多 的 工作 还 是 响 
应 用 户 的 文件 访问 请 求 ， 如 期 刊 文章 的 电子 版 ， 这 与 FTP WR ah 7R 8 

以 文件 访问 、 数 字 化 图 书馆 和 前 面 介 绍 的 两 个 视频 应 用 (视频 会 议和 视频 点 播 ) 为 典型 
例子 ， 我 们 决定 提供 以 下 两 种 信道 ， 请求 /应 答 (request/reply) 信道 和 消息 流 (message 
stream) 信道 。 请 求 /应 答 信 道 可 用 于 文件 传输 和 数字 化 图 书馆 应 用 。 它 保证 由 一 方 发 送 的 每 
条 消息 都 被 另 一 方 接收 ， 并 且 每 条 消息 只 传输 一 份 拷贝 。 请 求 /应答 信 道 还 可 以 保证 在 其 上 
传输 的 数据 的 隐私 和 完整 性 ， 未 经 授权 不 能 读 或 修改 客户 与 服务 髓 进程 之 间 交 换 的 数据 。 

只 要 设置 了 参数 来 支持 单 向 和 双向 传输 以 及 不 同 的 时 延 特 性 ， 消 息 流 信 道 就 可 用 于 视 
频 点 播 和 视频 会 议 应 用 。 消 息 流 信道 可 能 不 需要 保证 所 有 的 消息 都 锌 发 送 ， 因 为 即使 一 些 
视频 帧 没有 被 接收 到 ， 视 频 应 用 仍 可 很 好 地 运行 。 然 而 ， 它 需要 保证 所 传输 的 消息 必须 按 
发 送 的 顺序 到 达 ， 以 避免 播放 乱 序 的 帧 。 与 请 求 / 应 答 信 道 一 样 ， 消 息 流 信道 需要 保证 视 
频数 据 的 隐私 和 完整 性 。 最 后 ， 消 息 流 信道 需要 文 持 多 播 ， 这 样 多 方才 能 够 同时 参与 远程 
会 议 或 观看 视频 。 

对 网 络 设计 者 来 说 ， 通 常会 采用 最 少 的 抽象 信道 类 型 来 为 最 多 的 应 用 提供 服务 ， 但 抽 
象 信道 类 型 太 少 也 会 有 风险 。 人 简单 地 说 ， 如 果 你 有 一 个 锤子 ， 便 会 觉得 所 有 的 东西 都 像 钉 
子 。 举 个 例 于 ， 如 采 只 有 消息 流 信 道 和 请 求 / 应 答 信道 ,那么 ， 在 下 一 个 应 用 出 现时 ， 你 
还 是 想 使 用 这 两 种 信道 ， 即 使 任何 一 个 信道 都 不 能 完全 提供 该 应 用 所 需 的 语义 。 因 此 ， 只 
要 程序 员 不 断 创造 出 新 应 用 ， 网 络 设计 者 就 可 能 创造 出 新 的 信道 类 型 ， 并 为 现 有 信道 增加 
选项 。 
另外 ， 值 得 注意 的 是 ， 不 管 一 个 特定 信道 究竟 提供 何 种 〈what) 功能 ， 都 存在 一 个 在 
何 处 Cwhere) 实现 这 种 功能 的 问题 。 在 很 多 情况 下 ， 最 容易 的 方法 是 把 底层 网 络 中 主机 
到 主机 的 连通 性 看 作 是 提供 了 一 个 比特 管道 (bit pipe) ， 而 高 层 通信 语义 由 终端 主机 提供 。 
这 种 方法 的 好 处 是 可 以 使 网 络 中 的 交换 机 尽 可 能 地 简单 〈 仅 转发 分 组 )， 但 要 求 终端 主机 
承担 更 多 的 任务 ， 文 持 具 有 丰富 语义 的 进程 到 进程 信道 。 另 一 种 方法 是 把 附加 功能 都 放 到 
交换 机 上 ， 从 而 允许 终端 主机 成 为 “ 哑 ” 设 备 〈 如 手机 ) 。 我 们 将 会 看 到 关于 如 何在 分 组 
交换 机 和 终端 主机 (设备 ) 间 分 配 各 种 网 络 服务 的 问题 是 一 个 在 网 络 设计 中 一 再 出 现 的 
问题 。 | 

2. WY Se PE 

正如 上 述 例子 所 表明 的 ， 可 靠 的 消息 传输 是 网 络 提供 的 最 重要 的 功能 之 一 。 然 而 ， 如 
果 不 先 明确 网 络 失败 的 原因 ， 就 很 难 决 定 如 何 提供 可 靠 性 。 首 先 应 该 认识 到 ， 计 算 机 网 络 
并 不 是 存在 于 一 个 完美 的 世界 中 。 计 算 机 系统 崩溃 后 重启 、 光 纤 断 型、 电磁 干扰 使 正在 传 
输 的 数据 位 出 错 、 交 换 机 缓存 溢出 ， 这 些 物 理 问题 已 经 足以 令 人 担忧 ， 更 何况 管理 硬件 的 
软件 可 能 存在 漏洞 ， 有 时 所 转发 的 分 组 还 会 丢失 。 因 此 ， 网 络 的 一 个 重要 需求 就 是 从 某 些 
” 故 隐 中 恢复 ， 使 得 应 用 程序 不 必 处 理 这 些 故障 ， 甚 至 不 知道 这 些 故障 的 存在 。 

网 络 设计 者 必须 考虑 的 故障 通常 有 三 类 。 首 先 ， 当 通过 物理 链 路 传输 一 个 分 组 时 ， 数 
据 中 可 能 会 出 现 比特 错 〈bit error)， 也 就 是 说 ，1 变 成 0 或 0 变 成 1。 有 时 单个 比特 出 错 ， 


pa BR | 13 


更 多 的 时 候 会 发 生 突 发 差错 (burst error) 一 一 几 个 连续 的 比特 损坏 。 比 特 差错 通常 是 由 
外 界 原因 引起 的 ， 如 闪电 、 电 力 波 动 或 微波 炉 干 扰 数 据 的 传输 。 好 在 比特 差错 很 少 发 生 ， 
在 典型 的 铜 电 缆 中 传输 时 ， 平均 每 105 ~107 比特 中 出 现 一 个 比特 差错 ， 在 典型 的 光纤 中 传 
输 时 ， 平 均 每 102 一 101 比特 中 出 现 一 个 比特 差错 。 我 们 将 看 到 ， 有 些 技术 能 够 以 很 高 的 
概率 检测 出 这 些 比 特 差 错 。 一 旦 检测 到 比特 差错 ， 就 有 可 能 改正 这 些 错 误 。 如 果 我 们 知道 
哪个 比特 或 哪些 比特 出 错 的 话 ， 简 单 地 取 反 即 可 ; 但 是 如 果 损 坏 非 常 严 重 ， 就 必须 丢弃 整 
个 分 组 。 在 这 种 情况 下 ， 则 希望 发 送 者 重 传 分 组 。 

第 二 类 错误 发 生 在 分 组 级 而 不 是 比特 级 ， 也 就 是 说 ， 网 络 丢 失 了 整个 分 组 。 发 生 这 类 
错误 的 原因 之 一 是 分 组 含有 不 可 纠正 的 比特 差错 ， 因 此 不 得 不 丢掉 。 然 而 ， 可 能 性 更 大 的 
原因 是 ， 一 个 必须 处 理 该 分 组 的 节点 (例如 将 分 组 从 一 条 链 路 转发 到 另 一 条 链 路 的 交换 
机 ) 由 于 过 载 而 没有 空间 存储 分 组 ， 因 而 被 迫 将 其 丢掉 。 这 是 我 们 在 1. 2. 3 节 中 提 到 的 拥 
塞 问题 。 另 一 种 不 太 普 遍 的 原因 是 处 理 分 组 的 节点 上 运行 的 软件 出 现 错 误 。 例如 ， 它 可 能 
将 一 个 分 组 转发 到 一 条 错误 的 链 路 ， 使 得 分 组 找 不 到 最 终 目 的 地 。 我 们 会 看 到 ， 处 理 丢 失 
分 组 的 主要 困难 是 识别 该 分 组 究 竞 是 确实 丢失 了 ， 还 是 仅仅 延迟 到 达 目 的 地 。 

第 三 类 错误 发 生 在 节点 和 链 路 级 ， 也 就 是 说 ， 物 理 链 路 被 切断 或 所 连接 的 计算 机 前 省 
了 。 这 类 错误 可 能 由 软件 崩溃 、 电 源 故 障 或 人 工 操作 失误 所 引起 ， 由 于 网 络 设备 的 错误 本 
置 所 引起 的 失败 也 是 很 普遍 的 ， 虽 然 这 样 的 错误 最 终 能 被 更 正 ， 但 仍 会 在 一 段 较 长 的 时 间 
内 对 网 络 产生 很 大 的 影响 。 然 而 ， 它 们 也 不 至 于 使 网 络 完全 不 能 使 用 。 例 如 ， 在 分 组 交换 
网 中 ， 有 时 可 能 路 由 到 故障 节点 或 链 路 。 处 理 第 三 类 错误 的 困难 在 于 判断 一 台 计 算 机 是 由 于 
出 了 故障 还 是 速度 慢 ， 或 者 判断 一 条 链 路 是 由 于 断 了 还 是 性 能 很 差 而 导致 大 量 的 比特 差错 。 

结论 ”经 过 以 上 讨论 可 知 ， 定 义 有 用 的 信道 需要 理解 应 用 的 需求 并 明确 底层 技术 

的 局 限 性 。 我 们 所 面临 的 挑战 是 如 何 缩小 应 用 需求 与 底层 技术 所 能 提供 服务 之 间 

的 差距 。 这 种 差距 有 时 称 为 语义 缝隙 (semantic gap). 


1.2.5 可 管理 性 


最 后 一 个 需求 似乎 经 常 被 忽略 或 者 到 最 后 才 被 提出 9 ， 这 就 是 网 络 的 可 管理 性 。 管 理 
网 络 包括 当 需 要 扩大 网 络 来 承载 更 多 流量 或 支持 更 多 用 户 时 对 网 络 做 适当 改变 ， 以 及 当 出 
现 问题 或 性 能 不 如 预期 时 排除 网 络 故障 。 | 

这 个 需求 在 某 种 程度 上 与 上 面 所 讨论 的 可 扩展 性 有 关 ， 因 为 因特网 已 经 扩展 到 能 够 支 
持 几 十 亿 用 户 和 至 少 几 亿 台 主机 ， 确 保 整 个 网 络 正确 运行 且 正 确 配置 新 添加 的 设备 越 来 越 
”成 问题 。 配 置 网 络 中 的 路 由 器 通常 是 受过 训练 的 专家 的 任务 ， 而 配置 几 千 台 路 由 器 并 能 找 
出 如 此 大 规模 的 网 络 为 什么 不 能 按照 预期 运行 的 原因 则 绝 不 是 任何 个 人 能 承担 的 任务 。 另 
”外 ， 为 了 使 得 网 络 的 运营 具有 可 扩展 性 和 更 高 的 性 价 比 ， 网 络 运营 商 一 般 需 要 很 多 管理 任 
务 能 够 自动 执行 ， 或 者 至 少 可 以 由 技术 水 平 相对 不 太 高 的 人 来 完成 。 

自从 我 们 写 完 本 书 第 1 版 ， 网 络 发 展 的 一 个 重要 现象 是 家 庭 网 络 已 经 非常 普及 。 这 意 
味 着 网 络 管理 不 再 是 专家 的 任务 ， 而 是 需要 由 经 过 少量 培训 或 没有 培训 过 的 用 户 来 完成 。 
这 有 时 也 被 描述 为 需要 网 络 设备 “ 即 插 即 用 ”， 然 而 事实 证 明 这 个 目标 相当 模糊 。 稍 后 ， 
我 们 将 讨论 部 分 满足 该 需求 的 一 些 方法 ， 但 是 目前 需要 注意 的 是 改善 网 络 的 可 管理 性 依旧 





日 ”就 像 我 们 在 本 节 中 所 做 的 那样 。 
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是 当前 重要 的 研究 领域 。 


网 络 体系 结构 

| 也 许 你 尚未 注意 到 ， 前 一 节 已 建立 了 一 个 相当 丰富 的 网 络 设计 需求 的 集合 ， 即 一 个 计 
算 机 网 络 必须 提供 大 量 计 算 机 之 间 通 用 的 、 高 性 价 比 的 、 公 平 的 和 健壮 的 连通 性 。 但 似乎 
这 还 不 够 ， 因 为 网 络 不 是 一 成 不 变 的 ， 它 必须 适应 所 依赖 的 底层 技术 的 变化 以 及 应 用 程序 
对 网 络 需 求 的 变化 。 另 外 ， 网 络 必须 能 够 由 不 同 技术 水 平 的 人 来 管理 。 设 计 一 个 满足 这 些 
需求 的 网 络 并 非 易 事 。 

为 了 处 理 这 个 复杂 的 问题 ， 网 络 设计 者 已 经 制定 了 通用 的 蓝图 ， 通 常 称 为 网 络 体系 结 
构 (network architecture)， 用 以 指导 网 络 的 设计 和 实现 。 本 节 通 过 引入 所 有 网 络 体系 结 
构 所 共有 的 核心 思想 ， 来 更 详细 地 定义 什么 是 网 络 体系 结构 。 我 们 还 将 介绍 两 个 被 广泛 参 
考 的 体系 结构 ， 即 OSI (或 7 层 ) 体系 结构 和 因特网 体系 结构 。 





1.3.1 分 层 和 协议 


抽象 一 一 隐藏 定义 良好 的 接口 背后 的 细节 一 -是 系统 设计 者 用 于 处 理 复杂 性 的 基本 工 
具 。 抽 象 的 思想 是 定义 一 个 能 捕获 系统 某 些 特征 的 模型 ， 并 将 这 个 模型 封装 为 一 个 对 象 ， 
为 系统 的 其 他 组 件 提供 一 个 可 操作 的 接口 ， 同 时 向 对 象 使 用 者 隐藏 对 象 的 实现 细节 。 困 难 
在 于 如 何 确定 抽象 ， 使 得 它们 既 能 够 提供 适用 于 大 多 数 情 况 的 服务 ， 同 时 能 够 在 底层 系统 
中 高 效 实现 。 这 正 是 前 一 节 中 我 们 引入 信道 的 概念 时 想 要 做 的 ， 我们 想 为 应 用 提供 一 个 抽 
象 ， 对 应 用 开发 者 隐藏 网 络 的 复杂 性 。 

分 层 是 抽象 的 自然 结果 ， 特 别 是 在 网 络 系统 中 。 分 层 的 总 体 思 想 是 从 底层 硬件 提供 的 
服务 开始 ， 然 后 增加 一 系列 的 层 ， 每 一 层 都 提供 更 高 级 〈 更 抽象 ) 的 服务 。 高 层 提供 的 服 
务 用 低层 提供 的 服务 来 实现 。 例 如 ， 总 结 前 一 节 给 出 的 有 
关 需 求 的 讨论 ， 可 以 将 一 个 网 络 简单 设想 为 夹 在 应 用 程序 | 应 用 程序 
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和 底层 硬件 之 间 的 两 层 抽象 ， 如 图 1-8 所 示 。 在 这 种 情况 | 进程 对 进程 的 信道 See : 
下 ， 硬 件 上 面 的 第 一 层 可 提供 主机 到 主机 的 连接 ， 对 两 台 | 主机 对 主机 的 连接 | 
主机 之 间 任意 复杂 的 网 络 拓扑 进行 抽象 。 上 面 一 层 基于 主 | 硬件 | 
机 到 主机 的 通信 服务 ， 对 进程 到 进程 的 信道 提供 支持 ， 对 Ws 分 层 网 络 系统 示例 
网 络 偶尔 丢失 消息 这 样 的 事实 进行 抽象 。 

分 层 具 有 两 个 优点 。 第 一 ， 它 将 建造 网 络 这 个 问题 分 解 为 多 个 可 处 理 的 部 分 。 不 是 把 
想 要 的 所 有 功能 都 集中 在 一 个 软件 中 ， 而 是 可 以 实现 多 个 层 ， 每 一 层 解决 一 部 分 问题 。 第 
二 ， 它 提供 一 种 更 为 模块 化 的 设计 。 如 果 想 增加 一 些 新 服务 ， 只 需要 修改 某 一 层 的 功能 ， 
同时 可 以 继续 使 用 其 他 各 层 提供 的 功能 。 a sent | 

然而 ， 将 系统 看 作 层 次 的 线性 序列 是 一 种 过 分 简化 。 应 RE 序 | 
通常 ， 在 系统 的 任意 一 层 上 都 提供 多 种 抽象， 每 种 抽象 | 请求 应 竺 通道 | 消息 流通 道 | 
部 建立 在 同样 的 低层 抽象 上 ， 却 分 别 向 高 层 提供 不 同 的 | 了 BLUER 
”服务 。 为 了 说 明 这 一 点 ， 我 们 考察 1. 2. 4 节 讨 论 过 的 两 一 一 一 一 一 一 一 一 
种 信道 一 种 提供 请 求 /应 答 服务 ， 另 一 种 支持 消息 流 服 一 一 一 一 一 
务 。 这 两 种 信道 在 多 层 网 络 系统 的 某 个 特定 层 上 是 可 选 图 1-9 特定 层 上 具有 可 选 
的 ， 如 图 1-9 所 示 。 抽象 的 分 层 系统 
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在 有 关 分 层 讨论 的 基础 之 上 ， 我 们 能 够 更 准确 地 讨论 网 络 的 体系 结构 。 对 初学 者 而 
言 ， 构 成 网 络 系统 分 层 的 抽象 对 象 称 为 协议 〈protocoD 。 就 是 说 ， 一 个 协议 提供 一 种 通信 ， 
服务 ， 供 高 层 对 象 〈 如 一 个 应 用 进程 或 更 高 层 的 协议 ) 交换 消息 。 例 如 ， 我 们 可 以 设想 一 
个 支持 请 求 /应 答 协议 和 消息 流 协 议 的 网 络 ， 分 别 对 应 于 上 面 讨论 过 的 请 求 / 应 答 信道 和 消 
息 流 信道 。 | | 

每 个 协议 定义 两 种 不 同 的 接口 。 首 先 ， 它 为 同一 计算 机 上 想 使 用 其 通信 服务 的 其 他 对 
象 定 义 一 个 服务 接口 (service interface) 。 这 个 服务 接口 定义 了 本 地 对 象 可 以 在 该 协议 上 
执行 的 操作 。 例 如 ， 一 个 请 求 /应 答 协 议 可 支持 应 用 的 发 送 和 接收 消息 的 操作 。HTTP Hh 
议 的 实现 能 够 支持 从 远程 服务 器 获取 超 文本 页 面 的 操作 。 当 用 户 在 当前 页 面 上 单 击 链接 
时 ， 像 Web 浏览 器 这 样 的 应 用 将 调用 该 操作 来 获取 新 页 面 。 

其 次 ， 协 议 为 另 一 台 机 器 上 的 对 等 实体 定义 一 个 对 等 接口 〈peer interface) 。 第 二 种 
接口 定义 了 对 等 实体 之 间 为 实现 通信 服务 而 交换 的 消息 的 格式 和 含义 。 这 将 决定 一 台 机 器 
上 的 请 求 /应 答 协 议 以 什么 方式 与 另 一 台 机 器 上 的 对 等 实体 进行 通信 。 例 如 ， 在 HTTP H 
议 中 ， 协 议 规 范 详 细 定义 了 “GET” 命令 的 格式 ， 包 括 该 命令 可 以 使 用 哪些 参数 ， 以 及 当 
接收 到 此 命令 时 Web 服务 器 该 如 何 响应 (有 关 此 协议 的 详情 参见 9.1. 2 节 ) 。 

”总 之 ,协议 定义 了 一 个 本 地 输出 的 通信 服务 〈 服 务 接口 ) 以 及 一 组 规则 ， 这 些 规 则 用 
于 管理 协议 及 其 对 等 实体 为 实现 该 服务 而 交换 的 消息 (对 等 接口 )。 这 种 情况 如 图 1- 10 
所 示 。 








对 等 接口 





图 1-10 服务 接口 和 对 等 接口 


除了 硬件 层 上 的 对 等 实体 之 间 通过 一 条 链 路 直接 进行 通信 ， 对 等 实体 间 的 通信 都 是 间 
接 的 。 每 个 协议 和 它 的 对 等 实体 的 通信 过 程 是 将 消息 传 给 更 低层 的 协议 ， 再 由 更 低层 协议 
将 消息 发 给 它 的 对 等 实体 。 另 外 ， 在 任 一 层 都 可 能 有 潜在 的 提供 不 同 通 信服 务 的 多 种 协 
议 ， 每 一 种 协议 提供 不 同 的 通信 服务 。 因 此 我 们 用 协议 图 (protocol graph) 来 表示 构成 
网 络 系统 的 协议 族 ， 图 中 的 节点 对 应 于 协议 ， 边 表示 依赖 关系 。 例 如 ， 图 1- 11 描述 了 我 
们 刚才 讨论 过 的 假想 分 层 系统 的 协议 图 ， 协 议 RRP (请 求 /应 答 协 议 ) 和 MSP (消息 流 协 
议 ) 实现 两 种 不 同类 型 的 进程 到 进程 信道 ， 并 且 都 依赖 于 提供 主机 到 主机 连通 服务 的 主机 
到 主机 协议 (HHP). 

在 这 个 例子 中 ,假设 主 机 1 上 的 文件 访问 程序 要 使 用 协议 RRP 提供 的 通信 服务 给 主 
机 2 上 的 对 等 实体 发 送 一 条 消息 。 在 这 种 情况 下 ,文件 应 用 请 求 RRP 代表 它 发 送 消息 。 
为 了 与 对 等 实体 进行 通信 ，RRP 调用 HHP 服务 ，HHP 将 消息 送 往 另 一 台 机 器 的 对 等 实 








图 1-11 协议 图 示例 


ik, 一旦 消息 到 达 主 机 2 上 的 HHP 实例 ，HHP 就 将 消息 向 上 传 给 RRP，RRP 再 将 消息 
传 给 文件 应 用 。 在 这 种 特定 的 情况 下 ， 我 们 称 该 应 用 使 用 了 协议 栈 (protocol stack) 
~ HHP 提供 的 服务 。 

主意 ， 协 议 (protocol) 这 个 词 有 两 种 不 同 的 用 法 。 它 有 时 是 指 抽象 接口 ， 即 由 服务 
I L; 有 时 它 又 表示 实际 实现 这 两 
种 接口 的 模块 。 为 了 区 分 接口 和 实现 这 些 接口 的 模块 ， 我 们 通常 称 前 者 为 协议 规范 (pro- 
tocol specification), Ayia A AADC. WB, 状态 转换 图 、 分 组 格式 和 其 他 抽象 符号 的 组 
合 来 表示 。 一 个 给 定 的 协议 可 由 不 同 的 程序 员 按 不 同 的 方法 来 实现 ， 只 要 符合 协议 规范 即 
可 。 实 现 的 困难 在 于 如 何 保 证 使 用 同样 协议 规范 的 两 个 不 同 实现 能 成 功 地 交换 消息 。 能 
准确 地 实现 一 个 协议 规范 的 两 个 或 多 个 协议 模块 称 为 彼此 可 互 操 作 (interoperate)。 

我 们 可 以 设想 出 许多 满足 一 组 应 用 通信 和 需求 的 不 同 的 协议 和 协议 图 。 幸 运 的 是 ， 有 些 
标准 化 组 织 会 为 具体 的 协议 图 制定 政策 ， 比 如 国际 标准 化 组 织 〈ISO) 和 因特网 工程 任务 
组 〈IETF) 。 我 们 规定 一 ade arene ae eee + 74 (net- 
work architecture) 。 尺 管 超 出 本 书 范 围 ， 但 ISO 和 IETF 等 标准 化 组 织 已 经 在 它们 各 自 的 
体系 内 建立 了 严格 定义 的 用 于 引入 、 验 证 和 最 终 LEM NERE, RETR 
ISO 和 IETF 定义 的 体系 结构 ， 但 是 首先 需要 解释 有 关 协 议 分 层 机 制 的 另外 两 个 要 素 。 

1. 封装 

”对 于 图 1-11， 考 虑 当 一 个 应 用 程序 通过 将 消息 传输 给 RRP 协议 来 向 它 的 对 等 实体 发 
送 消 息 时 会 发 生 什 么 情况 。 从 RRP 的 角度 来 看 ， 应 用 程序 给 出 的 消息 是 一 个 无 解释 的 字 
PP., RRP 并 不 关心 这 些 字 节 表示 一 个 整 型 数组 、 一 封 电 子 邮 件 、 一 幅 数字 化 图 像 或 是 
其 他 什么 ， 它 只 是 负责 将 这 些 字 节 发 给 它 的 对 等 实体 。 人 
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给 它 的 对 等 实体 ， 指 示 对 等 实体 如 何 处 理 收 到 的 消息 。 为 做 到 这 一 点 ，RRP 将 一 个 首部 
Cheader) 附加 到 消息 上 。 一 般 说 来 ， 首 部 是 一 个 小 的 数据 结构 ， 从 几 个 字 节 到 几 十 个 字 
节 ， 用 于 对 等 实体 彼此 间 的 通信 。 顾 名 思 义 ， 首部 通常 加 到 消息 的 前 面 。 然 而 在 有 些 情况 
下 ， 对 等 实体 之 间 的 控制 信息 在 消息 的 末尾 发 送 ， 这 时 称 为 尾部 (trailer), RRP 附加 首 
部 的 确切 格式 是 由 其 协议 规范 定义 的 。 消 息 的 其 余部 分 称 为 消息 体 (body) 或 有 效 载荷 
(payload), ， 即 要 符 应 用 程序 传输 的 数据 。 我 们 称 应 用 程序 的 数据 被 封装 在 

一 个 由 RRP 协议 创建 的 新 消息 中 。 

封装 过 程 在 协议 图 的 每 一 层 都 被 重复 ， 例 如 ，HHP 封装 RRP 的 消息 ， 加 上 一 个 自己 
的 首部 。 如 果 我 们 假设 现在 HHP 通过 网 络 发 送 消息 给 它 的 对 等 实体 ， 那 么 当 消 息 到 达 目 
的 主机 时 ， 它 将 以 相反 的 顺序 被 处 理 ， HHP 首先 解释 消息 前 面 的 首部 〈 即 根据 首部 的 内 
容 采 取 相 应 的 行动 )， 并 且 将 消息 体 向 上 传 给 RRP (不 包括 HHP 的 首部 )，RRP 根据 其 
对 等 方 所 添加 的 首部 的 指示 采取 行动 ， 并 将 消息 体 (不 包括 RRP 的 首部 ) 向 上 传 给 应 用 
程序 。 由 RRP 向 上 传递 给 主机 2 上 的 应 用 程序 的 消息 正 是 应 用 程序 向 下 传递 给 主机 1 的 
RRP 的 消息 ， 应 用 程序 看 不 见 任何 附加 到 消息 上 以 实现 更 低层 通信 服务 的 首部 。 整 个 过 
程 如 图 1-12 所 示 。 注 意 ， 在 这 个 例子 中 ， 网 络 中 的 节点 (如 交换 机 和 路 由 器 〉 可 能 会 检 
查 消息 前 面 的 HHP 首部 。 








[HHP RRP) Bde | 


图 1-12 高 层 消 息 被 封装 在 低层 消息 内 


注意 ， 当 我 们 说 一 个 低层 协议 不 解释 某 个 高 层 协议 发 送 过 来 的 消息 时 ， 是 指 它 不 知道 
如 何 从 消息 所 含 的 数据 中 得 出 含义 。 然 而 ， 在 有 些 情况 下 ， 低 层 协议 会 对 接收 到 的 数据 做 
某 种 简单 的 转换 ， 如 压缩 或 加 密 。 此 时 ， 协 议 转换 整个 消息 体 ， 包括 原始 的 应 用 数据 和 由 
高 层 协议 加 在 数据 上 的 所 有 首部 。 

2. 多 路 复 用 和 多 路 分 解 

回顾 1. 2. 3 节 分 组 交换 的 基本 思想 : 在 一 条 物理 链 路 上 多 路 复 用 多 个 数据 流 。 同 样 的 
思想 也 适用 于 协议 图 中 的 上 层 和 下 层 ， 而 不 只 用 于 交换 节点 。 例 如 ， 在 图 1-11 中 ， 可 将 
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RRP 看 作 实 现 了 一 条 逻辑 通信 信道 ,来自 两 个 不 同 应 用 的 消息 在 源 主机 上 多 路 复 用 到 这 
条 信道 ， 然 后 在 目标 主机 上 多 路 分 解 到 相应 的 应 用 。 \ 
实际 上 ， 这 仅仅 意味 着 RRP 附加 到 消息 上 的 首部 包含 一 个 标识 符 ， 用 于 记录 消息 属 
于 哪个 应 用 程序 。 我 们 将 这 个 标识 符 称 为 RRP 的 多 路 分 解 键 (demultiplexing key, #5 
为 demux key) 。 在 源 主机 上 ，RRP 在 首部 中 包含 相应 的 多 路 分 解 键 。 当 消息 传 到 目标 主 
机 上 的 RRP 时 ， 它 剥 下 首部 ， 检 查 多 路 分 解 键 ， 然 后 将 消息 多 路 分 解 到 正确 的 应 用 程 
序 中 。 | 
RRP 并 不 是 唯一 支持 多 路 复 用 的 协议 ， 几 乎 每 个 协议 都 能 实现 这 种 机 制 。 例 如 ， 
HHP 有 自己 的 多 路 分 解 键 ， 用 于 确定 哪些 消息 上 传 给 RRP， 哪 些 消 息 上 传 给 MSP。 但 
是 ， 对 于 多 路 分 解 键 的 构成 ， 在 协议 〈 甚 至 那些 在 同一 个 网 络 体系 中 的 协议 ) 之 间 并 没有 
统一 的 规定 。 一 些 协议 使 用 8 位 的 字段 (表示 只 能 支持 256 个 高 层 协议 ) ， 而 另 一 些 协 议 
使 用 16 位 或 32 位 的 字段 。 而 且 ， 一 些 协 议 在 首部 中 只 有 一 个 多 路 分 解 字段 ， 而 另 一 些 协 
议 可 能 有 一 对 多 路 分 解 字段 。 在 前 一 种 情况 下 ， 通 信 双 方 使 用 相同 的 多 路 分 解 键 ; 而 在 后 
一 种 情况 下 ， 通 信 双 方 使 用 不 同 的 键 来 识别 消息 将 被 传输 给 哪个 高 层 协议 〈 或 应 用 程序 ) 。 
3. 七 层 模型 
ISO 是 最 早 正 式 定义 计算 机 互联 的 通用 方法 的 组 织 之 一 。 它 们 的 体系 结构 称 为 开放 系 
统 互 联 (Open Systems Interconnection, OSD 体系 结构 ， 如 图 1-13 所 示 ， 将 网 络 按 功 能 
划分 为 七 层 ， 由 一 个 或 多 个 协议 实现 分 配给 某 个 特定 层 的 功能 。 这 意味 着 图 1- 13 并 不 是 
一 个 协议 图 ， 而 是 一 个 协议 图 的 参考 模型 (reference model)， 通 常 称 为 七 层 模 型 。 





图 1-13 OSI 七 层 模 型 


从 底层 开始 依次 向 上 上， 物理 (physical) 层 处 理 通信 链 路 上 原始 比特 的 传输 。 然 后 ， 
数据 链 路 (data link) 层 收集 比特 流 形成 一 个 更 大 的 集合 体 ， 称 为 帧 〈frame) 。 典 型 情况 
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下 ， 由 网 络 适 配器 和 运行 在 节点 操作 系统 上 的 设备 驱动 程序 一 起 来 实现 数据 链 路 层 。 这 意 
味 着 实际 传输 给 主机 的 是 帧 ， 而 不 是 原始 比特 。 网 络 (network) 层 处 理 一 个 分 组 交换 网 
内 节点 的 路 由 。 在 这 一 层 ， 节 点 间 交 换 的 数据 单元 通常 称 为 分 组 (packet) 而 不 是 帧 ， 尽 
管 它们 基本 上 是 一 回 事 。 较 低 的 三 层 在 所 有 网 络 节点 中 都 要 实现 ， 包 括 网 络 内 部 的 交换 机 
和 网 络 外 部 连接 的 主机 。 传 输 (transport) 层 实现 我 们 提 到 过 的 进程 到 进程 信道 ， 在 此 ， 
交换 的 数据 单元 通常 称 为 消息 (message) 而 不 是 分 组 或 帧 。 传 输 层 和 更 高 层 通常 只 在 终 
端 主机 上 运行 ， 而 不 在 中 间 交 换 机 或 路 由 器 上 运行 。 | | 

关于 上 面 三 层 的 定义 不 太 统一 ， 部 分 原因 是 这 三 层 并 不 总 是 出 现 ， 下 面 将 会 看 到 这 
一 点 。 先 看 最 顶层 (第 七 层 )， 这 是 应 用 (application) 层 。 应 用 层 协议 包括 超 文本 传输 
协议 (HTTP) 等 ，HTTP 是 万 维 网 的 基础 ， 它 使 Web 浏览 器 能 够 向 Web 服务 器 请 求 
页 面 。 接 下 来 ， 表 示 (presentation) 层 关注 对 等 实体 间 交 换 的 数据 的 格式 ,， 例如， 整数 
是 16 位 、32 位 还 是 64 位 长 ， 最 先 传输 还 是 最 后 传输 最 高 有 效 位 ， 或 者 如 何 格式 化 一 
个 视频 流 。 最 后 ， 会 话 (session) 层 提 供 一 个 命名 空间 ， 用 来 将 一 个 应 用 的 各 部 分 不 同 
的 传输 流 联系 在 一 起 。 例 如 ， 它 可 以 管理 一 个 视频 会 议 应 用 中 结合 在 一 起 的 一 个 音频 流 
和 一 个 视频 流 。 


1.3.2 因特网 体系 结构 


因特网 体系 结构 有 时 也 称 为 TCP/IP 体系 结构 ， 因 为 TCP 和 IP 是 它 的 两 个 主要 协 
W. WE 1-14 所 示 。 图 1-15 给 出 另外 一 种 表示 方法 。 因 特 网 体系 结构 是 从 早期 的 分 组 交 
" H ARPANET 发 展 而 来 的 。 因 特 网 和 ARPANET 都 是 由 美国 高 级 研究 规划 署 CAR- 
PA) 资助 创建 的 ，ARPA 是 美国 国防 部 的 研发 基金 机 构 之 一 。 在 OSI 体系 结构 出 现 之 前 ， 
因特网 和 ARPANET 就 已 经 存在 了 ， 并 且 在 创建 它们 时 所 积累 的 经 验 对 OSI 参考 模型 产 
生 了 重大 影响 。 
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图 1-15 因特网 体系 结构 的 另 一 个 视角 ， 子 网 层 
图 1-14 因特网 协议 图 曾 称 为 网 络 层 ， 现 在 通常 简称 为 第 二 层 





尽管 七 层 OSI 模型 理论 上 能 够 应 用 于 因特网 ， 但 是 实际 上 通常 采用 四 层 模 型 。 在 最 低 
层 是 多 种 网 络 协议 ， 表 示 为 NET1、NET; 等 。 实 际 应 用 中 ， 这 些 协 议 由 硬件 “如 网 络 适 
配器 ) 和 软件 (如 网 络 设备 驱动 程序 ) 共同 实现 。 例 如 ， 以 太 网 或 无 线 协 议 〈 如 802. 11 
Wi-Fi 标准 ) 就 会 出 现在 这 一 层 。( 这 些 协 议 实际 上 还 可 以 包含 几 个 子 层 ， 但 是 因特网 体系 
结构 并 没有 对 此 做 任何 假设 .) 第 二 层 只 有 一 个 网 际 协议 (nternet Protocol, IP)， 这 个 协 
议 支持 多 种 网 络 技术 互联 为 一 个 逻辑 网 络 。 第 三 层 包 括 两 个 主要 的 协议 ,传输 控制 协议 
(Transmission Control Protocol, TCP) 和 上 用户 数 据 报 协议 (User Datagram Protocol, 
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UDP), TCP 和 UDP 为 应 用 程序 提供 可 选 的 逻辑 信道 ， TCP 提供 可 靠 的 字 节 流 信道 ， 
UDP 提供 不 可 靠 的 数据 报 传输 信道 (数据 报 (datagram) 可 认为 是 消息 的 同义词 )。 在 因 

特 网 的 语言 中 ，TCP 和 UDP 有 时 也 称 作 端 到 端 (end-to-end) 协议 ， 但 称 其 为 传输 协议 
”同样 正确 。 | 

在 传输 层 上 运行 了 大 量 应 用 协议 ， 如 HTTP, FTP, Telnet (远程 登录 ) 和 简单 邮件 
传输 协议 (Simple Mail Transfer Protocol，SMTP) ， 使 得 常用 的 应 用 可 以 互 操作 。 为 了 
理解 应 用 层 协议 和 应 用 之 间 的 区 别 ， 我 们 考虑 所 有 正在 使 用 或 曾经 使 用 过 的 不 同 WWW 
浏览 器 (如 Firefox, Safari, Netscape, Mosaic, Internet Explorer), Web 服务 器 有 大 量 
类 似 的 不 同 实现 方式 ， 可 以 使 用 这 些 应 用 程序 中 的 任 一 个 访问 Web 上 的 某 个 站 点 ， 原 因 
是 它们 都 符合 同样 的 应 用 层 协议 : HTTP。 有 时 用 同一 个 词 表 示 应 用 和 该 应 用 使 用 的 应 用 
层 协 议 容 易 引 起 混淆 ， 例 如 ，FTP 通常 用 作 实 现 FTP 协议 的 一 个 应 用 的 名 字 。 

现在 工作 在 网 络 领域 的 大 部 分 人 既 熟 悉 因 特 网 体系 结构 也 熟悉 七 层 OSI 体系 结构 ， 并 
且 就 两 个 体系 结构 之 间 层 次 的 对 应 关系 达成 了 共识 。 因 特 网 的 应 用 层 被 看 作 是 第 七 层 ， 其 
传输 层 是 第 四 层 ，IP 层 (网络 互联 层 或 网 络 层 ) 是 第 三 层 ，IP 层 下 面 的 链 路 或 子 网 层 是 
第 二 层 。 

因特网 体系 结构 有 三 个 特点 值得 注意 。 第 一 ， 如 图 1-15 所 示 ， 因 特 网 体系 结构 没有 
严格 地 划分 层 。 应 用 可 以 自由 地 跨 过 已 定义 的 传输 层 ， 而 直接 使 用 IP 层 或 低层 网 络 。 事 
实 上 ， 程 序 员 可 以 自由 定义 新 的 信道 抽象 或 在 任何 已 有 协议 上 运行 的 应 用 程序 。 

第 二 ， 如 果 和 仔细 观察 图 1-14 中 的 协议 图 ， 你 会 看 到 一 个 沙漏 形状 一 一 项 部 宽 、 中 辣 
窗 、 底 部 宽 。 这 种 形状 实际 上 反映 了 该 体系 结构 的 中 心 哲 学 。 就 是 说 ， 卫 层 作为 体系 结 
构 的 焦点 ， 为 各 种 网 络 中 的 交换 分 组 定义 一 种 通用 方法 。IP 层 之 上 可 以 有 多 个 传输 协议 ， 
每 个 协议 为 应 用 程序 提供 一 种 不 同 的 信道 抽象 。 这 样 ， 从 主机 到 主机 传输 消息 的 问题 就 从 
提供 有 用 的 进程 到 进程 通信 服务 的 问题 中 完全 分 离 出 来 。IP 层 之 下 ， 这 个 体系 结构 允许 
很 多 不 同 的 网 络 技术 ， 从 以 太 网 到 无 线 再 到 单个 的 点 到 点 链 路 。 

因特网 体系 结构 (或 者 更 精确 地 称 为 IETF 文化 ) 的 最 后 一 个 属性 是 : 为 了 将 一 个 新 
协议 正式 包含 在 网 络 体系 结构 中 ， 必 须 有 一 个 协议 规范 并 至 少 有 一 个 《最 好 两 个 ) 该 规范 
的 典型 实现 。 被 IETF 采用 的 协议 标准 必须 有 能 工作 的 协议 实现 。 这 种 要 求 有 助 于 保证 体 
系 结构 的 协议 能 够 有 效 实 现 。 也 许 因特网 文化 对 于 可 工作 软件 的 价值 的 最 佳 体现 ， 就 是 
IETF 会 议 上 第 穿 的 工 必 上 印 着 的 一 句 话 : 

我 们 拒绝 国王 、 总 统 和 选举 。 我 们 信奉 的 是 大 体 上 的 一 致意 见 和 可 执行 的 代码 。 

Dave Clark 
结论 在 因特网 体系 结构 的 三 个 属性 中 ， 值 得 重申 的 是 “沙漏 ”这 一 重要 设计 理 
念 。 沙 漏 的 细 腰 部 代表 最 小 的 、 经 过 精心 挑选 的 通用 功能 集 ， 它 允许 高 层 应 用 和 
低层 通信 技术 并 存 ， 共 享 各 种 功能 并 快速 发 展 。 细 腰 模 型 十 分 重要 ， 它 使 得 因 特 
网 能 够 快速 适应 用 户 的 新 要 求 和 技术 的 变革 。 





1.4 实现 网 络 软件 

网 络 体系 结构 和 协议 规范 是 基础 ， 但 好 的 蓝图 并 不 能 完全 解释 因特网 所 取得 的 巨大 成 
功 ; 接 入 因特网 的 计算 机 数 在 将 近 30 年 的 时 间 内 有 呈 指数 增长 〈 昌 然 现在 很 难 获得 确切 的 数 
字 ) 。 据 估计 ，2009 年 使 用 因特网 的 人 数 约 18 亿 ， 这 在 世界 人 口中 占有 相当 大 的 比例 。 
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如 何 解释 因特网 的 成 功 呢 ? 当然 有 许多 相关 因素 (包括 一 个 好 的 体系 结构 ),， 但 因 特 
网 取得 巨大 成 功 的 一 个 因素 是 它 的 许多 功能 是 由 通用 计算 机 上 运行 的 软件 实现 的 。 其 意义 
在 于 只 要 进行 “少量 的 编程 >， 就 可 以 方便 地 增加 一 个 新 功能 。 于 是 ， 新 的 应 用 和 服务 一 
直 在 以 令 人 难以 置信 的 速度 涌现 ， 如 电子 商务 、 视 频 会 议 、IP 电话 ， 等 等 。 
| 另 一 个 相关 因素 是 商用 计算 机 计算 能 力 的 显著 增长 。 尽 管 计 算 机 网 络 理论 上 能 传输 各 
类 数据 ， 如 数字 语音 样本 、 数 字 化 图 像 等 ， 但 如 果 计 算 机 在 发 送 和 接收 这 些 数据 时 的 速度 
太 慢 ， 那 么 这 些 信 息 将 失去 价值 ， 人 们 也 会 对 它 失 去 兴趣 。 实 际 上 ， 当 今 所 有 计算 机 都 能 


全 速 播放 数字 化 语音 ， 而 且 对 某 些 应 用 〈 不 是 全 部 ) 而 言 ， 它 能 以 可 用 的 速率 和 分 辩 率 播 


放 视 频 。 因 此 ， 当 今 的 网 络 越 来 越 多 地 用 于 承载 多 媒体 ， 只 有 计算 机 硬件 的 速度 变 得 更 
快 ， 这 种 支持 才 会 不 断 增 强 。 | | 

在 本 书 第 1 版 出 版 以 后 ， 写 网 络 应 用 已 经 成 为 非常 主流 的 活动 ， 而 不 再 是 少数 专家 的 
工作 。 许 多 因素 促成 了 这 种 现象 ， 包 括 更 好 的 工具 使 得 编程 工作 对 于 非 专 业 人 员 来 说 变 得 
更 简单 ， 以 及 智能 手机 应 用 等 新 市 场 的 出 现 。 

值得 注意 的 是 ， 了 解 如 何 实现 网 络 软件 是 理解 计算 机 网 络 的 重要 部 分 ， 虽 然 可 能 不 会 
要 求 你 实现 一 个 像 IP 这样 的 低层 协议 ， 但 很 有 可 能 会 找到 实现 一 个 应 用 层 协议 的 理 
由 一 一 难以 捉摸 的 “杀手 级 应 用 ”会 带 来 无 法 想象 的 名 誉 和 利益 。 作 为 第 一 步 ， 本 节 介 绍 
在 因特网 上 实现 网 络 应 用 的 相关 问题 ， 这 些 程序 通常 既是 一 个 应 用 (用 于 与 用 户 交 互 )， 
同时 也 是 一 个 协议 (通过 网 络 与 对 等 方 通信 )。 第 9 章 作 为 本 书 的 总 结 ， 将 回 到 网 络 应 用 
(应 用 层 协 议 ) 这 个 主题 ， 研 究 几 个 常见 的 例子 。 


1.4.1 应 用 程序 编程 接口 (BBS) 


实现 网 络 应 用 时 ， 要 从 网 络 提供 的 接口 开始 。 由 于 大 多 数 网 络 协 议 都 是 由 软件 实现 的 
(特别 是 协议 栈 中 的 高 层 协议 ) ， 而 且 几 乎 所 有 计算 机 系统 都 将 网 络 协议 的 实现 作为 操作 系 
统 的 一 部 分 ， 所 以 当 我 们 说 “网 络 提供 的 ”接口 时 ， 一 般 指 的 是 操作 系统 为 它 的 网 络 于 系 
统 提供 的 接口 。 这 个 接口 通常 称 为 网 络 应 用 程序 编程 接口 (Application Programming In- 
terface, API), | 

虽然 每 个 操作 系统 都 可 以 自由 地 定义 自己 的 网 络 API (而 且 大 多 数 已 经 定义 ),， 但 随 
着 时 间 的 推移 ， 有 些 API 获得 了 广泛 的 支持 ， 也 就 是 说 ， 它 们 被 移植 到 除 原始 系统 以 外 的 
操作 系统 中 。 套 接 字 接口 (socket interface) 就 是 这 样 ， 它 最 初 是 由 加 州 大 学 伯克利 分 校 
的 Unix 小 组 开发 的 ， 而 现在 几乎 所 有 流行 的 操作 系统 都 支持 它 ， 并 且 很 多 特定 语言 的 接 
口 都 是 以 它 为 基础 的 ， 如 Java 套 接 字库 。 业 界 支持 单一 API 的 好 处 是 应 用 程序 很 容 多 从 
一 个 操作 系统 移植 到 另 一 个 操作 系统 ， 开 发 者 很 容易 编写 用 于 多 个 操作 系统 的 应 用 。 

在 描述 套 接 字 接 口 之 前 ， 区 分 两 件 事 很 重要 。 每 个 协议 提供 一 系列 服务 (service), 
API 则 提供 特定 操作 系统 中 调用 这 些 服务 所 用 的 语法 (syntax)。 然 后 ， 接 口 的 实现 负责 
把 API 定 义 的 具体 操作 和 集 和 对 象 集 映射 到 协议 所 定义 的 抽象 服务 集 上 。 如 果 接 口 定义 得 很 
好 ， 那 么 就 可 能 用 这 个 接口 的 语法 来 调用 许多 不 同 协 议 的 服务 。 尽 管 还 很 不 完善 ， 但 这 种 
通用 性 显然 是 套 接 字 接 口 的 目标 。 | 

毫 无 疑问 ， 套 接 字 接 口 的 主要 概念 是 套 接 字 (socket) 。 理 解 套 接 字 的 好 方法 是 把 它 看 
作 本 地 应 用 进程 接 入 网 络 的 地 方 。 套 接 字 接口 定义 的 操作 包括 创建 套 接 字 、 将 套 接 字 连 接 
到 网 络 ， 通过 套 接 字 发 送 /接收 消息 以 及 关闭 套 接 字 ， 为 了 简化 讨论 ， 我 们 在 此 只 说 明 
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TCP 中 如 何 使 用 套 接 字 。 

第 一 步 是 创建 套 接 字 ， 该 步骤 通过 如 下 操作 实现 ， 

int socket (int domain, int type, int protocol) . 
这 个 操作 带 有 三 个 参数 ， 原 因 是 套 接 字 接口 被 设计 成 通用 的 ， 足 以 支持 任意 的 底层 协议 
族 。domain 参数 指定 了 将 要 使 用 的 协议 族 (family)，PF_INET 表示 因特网 协议 族 ，PF_ 
UNIX 表示 Unix 管道 功能 ，PF_PACKET 表示 直接 访问 网 络 接口 〈( 即 绕 过 TCP/IP 协议 
He). type 参数 表明 通信 的 语义 ，SOCK_STREAM 表示 字 节 流 ，SOCK_DGRAM 是 另 一 
种 选择 ， 表 示 面 向 消息 的 服务 ， 如 UDP 提供 的 服务 。protocol 参数 指明 将 要 用 到 的 特定 
协议 。 在 我 们 的 例子 中 ， 该 参数 为 UNSPEC， 因 为 PF_INET 和 SOCK_STREAM 结合 起 
来 表示 TCP, RJ, socket 的 返回 值 是 新 创建 套 接 字 的 句柄 (handle)， 即 以 后 引用 该 套 
接 字 时 使 用 的 标识 符 ， 它 将 作为 对 该 套 接 字 的 后 续 操 作 中 的 一 个 参数 。 

下 一 步 工作 取决 于 计算 机 是 客户 端 还 是 服务 器 。 在 服务 器 主机 上 ， 应 用 进程 执行 被 动 
(passive) 打开 一 一 服务 器 表明 它 已 准备 好 接受 连接 ， 但 是 它 并 不 实际 建立 连接 。 为 此 ， 
服务 器 调用 以 下 三 个 操作 : 


int bind(int socket,struct sockaddr * address,int addr len) 
int listen(int socket, int backlog) 
int accept(int socket,struct sockaddr * address,int * addr_len) 


顾名思义 ，bind 操作 将 新 创建 的 socket 与 指定 的 address 绑 定 ， 这 个 地 址 是 本 地 Clo- 
cl) 参与 者 ORS) 的 网 络 地 址 。 注 意 ， 在 使 用 因特网 协议 时 ，address 是 一 个 包含 服 
务 器 的 IP 地 址 和 TCP 端口 号 的 数据 结构 。 (正如 我 们 将 在 第 5 章 看 到 的 ， 端 口 用 于 间接 
地 标识 进程 ， 它 们 是 一 种 多 路 分 解 键 (demux key)， 其 定义 见 1.3.1 节 。.) 端口 号 通常 是 
一 些 特定 于 现 有 服务 的 众所周知 的 数字 ， 例 如 ，Web 服务 器 通常 在 端口 80 上 接受 连接 。 

然后 ， 用 listen 操作 定义 在 指定 的 套 接 字 上 可 以 有 多 少 个 待 处 理 的 连接 。 最 后 ，ac- 
cept 操作 完成 被 动 打开 。 这 是 一 个 阻塞 操作 ， 在 远程 参与 者 没有 建立 起 连接 前 ， 它 不 会 返 
回 ， 一 且 连 接 成 功 ， 它 将 返回 一 个 与 刚 建立 的 连接 相对 应 的 新 (new) 套 接 字 ， 并 且 ad- 
dress 参数 将 包含 远程 (remote) 参与 者 的 地 址 。 注 意 ， 当 accep 返回 时 ， 作 为 参数 给 定 
的 原始 套 接 字 依然 存在 ， 并 依然 对 应 于 这 个 被 动 打开 ， 在 以 后 调用 accept 时 仍 作 为 参数 。 
在 客户 端 ， 应 用 进程 执行 主动 (active) 打开 ， 也 就 是 说 ， 通 过 调用 如 下 操作 表明 希 
望 进行 通信 : 

int connect (int Socket ,Struct sockaddr * address,int addr_len) 


该 操作 直至 成 功 建立 TCP 连接 后 才 返 回 ， 此 时 应 用 程序 可 以 自由 发 送 数据 。 在 这 种 情形 
F, address 中 包含 远程 参与 者 的 地 址 。 实 际 上 ， 客 户 端 通常 只 指明 远程 参与 者 的 地 址 ， 
让 系统 自动 填写 本 地 信息 。 鉴 于 服务 器 通常 在 众所周知 的 端口 上 监听 消息 ， 客 户 端 一 般 并 
不 关心 它 自己 用 哪个 端口 ， 操 作 系 统 简单 地 选取 一 个 未 用 端口 即 可 。 

一 旦 连接 建立 ， 应 用 进程 就 调用 以 下 两 个 操作 来 发 送 和 接收 数据 : 

int send(int socket, char * message,int msg len,int flags) 

int recv(int socket,char * buffer,int buf_len,int flags) 


第 一 个 操作 在 指定 的 socket 上 发 送 message， 而 第 二 个 操作 从 指定 的 socket 上 接收 消息 ， 
并 放 人 指定 的 buffer。 这 两 个 操作 都 使 用 一 组 flags 来 控制 操作 的 特定 细节 。 
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现在 ， 我 们 来 看 一 个 简单 的 客户 端 /服务 器 程序 的 实现 ， 该 程序 利用 套 接 字 接 口 在 
TCP 连接 上 发 送 消息 。 这 个 程序 还 用 到 了 其 他 的 Unix 网 络 功能 ， 后 文 将 逐一 介绍 。 这 个 
应 用 允许 一 台 机 器 上 的 用 户 输入 文本 并 把 它 发 送 给 另 一 台 机 器 上 的 用 户 ， 它 是 Unix 中 
talk 程序 的 一 个 简化 版 本 ， 类 似 于 即时 通信 应 用 的 核心 程序 。 

1. 客户 端 

我 们 先 从 客户 端 开 始 ， 它 将 远程 机 器 的 名 字 作 为 参数 ， 调 用 Unix 程序 gethost- 
byname 把 这 个 名 字 转 化 为 远程 主机 的 IP 地 址 ， 然 后 构造 套 接 字 接口 所 需 的 地 址 数据 结构 
Csin) 。 注 意 ， 这 个 数据 结构 表明 我 们 将 用 该 套 接 字 与 因特网 CAF _INET) 连接 。 在 这 个 
例子 中 ， 我 们 用 TCP 端口 号 5432 作为 已 知 的 服务 器 端口 号 ， 它 恰好 不 是 分 配给 其 他 因 特 
网 服务 的 端口 号 。 建 立 连 接 的 最 后 一 步 是 调用 socket 和 connect, — Hi connect 操作 返回 ， 
连接 就 建立 了 ， 客 户 端 程序 将 进入 主 循环 ， 从 标准 输入 读 文本 并 通过 套 接 字 发 送出 去 。 


#include <stdio.h> 
#include <sys/types.h> 
jinclude <sys/socket.h> 
Finclude <netinet/in.h> 
dFinclude <netdb.h> 


#define SERVER_PORT 5432 
#define MAX_LINE 256 


int 
main(int argc, char * argv[]) 
{ 
Fae REDS | 
struct hostent xhp; 
struct sockaddr_in sin; 
char xhost; 
char buf[LMAX_LINE]; 
int s; 
int len; 


if (arge==2) { 
host = argvil]; 

} 

else { 
fprintf(stderr, “usage: simplex-talk host\n"); 
exit (1); 

} 


/x translate host name into peer's IP address */ 

hp = gethostbyname(host); 

if (thp) { 
fprintf(stderr, "simplex-talk: unknown host: s\n", host); 
exit (1); | 
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/x build address data structure x*/ 

bzero((char *)&sin, sizeof(sin)); 

Sin.sin_family = AF_INET; 

bcopy(hp->h_addr, (char *)&sin.sin_addr, hp->h_length); 
sin.sin_port = htons(SERVER_PORT); 


/x active open x/ 
if (Cs = socket(PF_INET, SOCK_STREAM, 0)) < 0) { 
perror("simplex-talk: socket"); 
exit(1); 
) 
if (connect(s, (struct sockaddr *)&sin, sizeof(sin)) < 0) 
{ 
perror("simplex-talk: connect"); 
close(s); 
exit (1); 
} 
/x main loop: get and send lines of text x/ 
while (fgets(buf, sizeof(buf), stdin)) { 
bufLMAX_LINE-1] = '\0'; 
len = strilen(buf) + 1; ü 
send(s, buf, len, 0); 


} 


2. 服务 器 

服务 姻 也 很 简单 。 首 先 构 造 地 址 数据 结构 ， 填 上 自己 的 端口 号 (SERVER_PORT). 
但 它 并 不 指明 IP 地 址 ， 从 而 使 应 用 程序 可 以 接受 来 自 本 地 主机 的 任何 一 个 IP 地 址 的 连 
接 。 下 一 步 ， 服 务 句 执行 被 动 打开 连接 的 预备 步骤 :创建 套 接 字 、 将 它 绑 定 到 本 地 地 址 、 
设置 允许 连接 的 最 大 数目 。 最 后 ， 主 循环 等 竺 来 自 远程 主机 的 连接 。 当 发 生 一 个 连接 时 ， 
它 就 接收 并 输出 从 连接 上 送 达 的 字符 。 


#include <stdio.h> 
d#include <sys/types.h> 
+#include <sys/socket.h> 
#include <netinet/in.h> 
#Hinclude <netdb.h> 


#define SERVER_PORT 5432 
#define MAX_PENDING 5 
define MAX_LINE 256 


int 
main() 
{ 
struct sockaddr_ in sin; 
char buf [MAX_LINE]; 
int len; 
TEAS 5. MEW. Ss 


/x build address data structure x/ 
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bzero((char *)&sin, sizeof(sin)); 
Sin.sin_family = AF_INET; 
Sin.Sin_addr.s_addr = INADDR_ANY; 
Sin.sin_port = htons(SERVER_PORT); 


/* setup passive open */ 

if ((s = socket(PF_INET, SOCK STREAM, 0)) < 0) 1 
perror("“simplex-talk: socket"); 
EXILIS 

} 

if ((bind(s, (struct sockaddr *)&sin, sizeof(sin))) < 0) { 
perror("simplex-talk: bind"); 
exit(1); 

} 

listen(s, MAX PENDING); 


/x wait for connection, then receive and print text x/ 
while(l) { 
if ((new_s = accept(s, (struct sockaddr «)&sin, &len)) < 0) { 
perror("simplex-talk: accept"); 
exit (1); 
} 
while (len = recv(new_s, buf, sizeof(buf), 0)) 


fputs(buf, stdout); 
close(new_s); 


1.5 性 能 

目前 ， 我 们 的 注意 力主 要 集中 在 网 络 功能 方面 。 与 任何 一 个 计算 机 系统 一 样 ， 计 算 机 
网 络 也 应 具有 良好 的 性 能 ， 因 为 分 布 式 网 络 计 算 的 效率 通常 直接 依赖 于 网 络 传输 数据 的 效 
率 。 有 一 句 古 老 的 编程 格言 ,，“ 先 使 它 正确 ， 表 使 它 快速 ”， 虽然 在 许多 情况 下 部 有 效 ， 但 是 
在 网 络 中 ， 通常 需 要 “为 性 能 而 设计 ”。 因 此 ，T 了 解 各 种 影响 网 络 性 能 的 因素 是 很 重要 的 。 


1.5.1 带宽 和 时 延 


网 络 性 能 有 两 种 基本 度量 方法 ， 带宽 (bandwidth) (也 称 为 吞吐 量 (throughput)) 
和 时 延 (latency) (也 称 为 延迟 (delay))。 网 络 的 带宽 是 在 一 段 特定 的 时 间 内 网 络 所 能 传 
输 的 比特 数 。 例 如 ， 一 个 网 络 带宽 为 10Mbps， 就 意味 着 每 秒 能 传输 1 千 万 个 比特 。 有 时 
候 ， 从 传输 每 个 比特 所 花 时 间 长 短 的 角度 来 分 析 带 宽 也 是 很 有 用 的 。 例 如 ， 在 一 个 
10Mbps 的 网 络 上 ， 传 输 每 个 比特 用 0. Ips. | 

虽然 我 们 可 以 将 网 络 的 带宽 作为 一 个 整体 来 讨论 ， 但 有 时 需要 更 准确 些 ， 例 如 重点 考 
虑 一 条 物理 链 路 的 带宽 或 者 一 条 进程 到 进程 的 逻辑 信道 的 带宽 。 在 物理 层 ， 带 宽 不 断 提 
高 ， 无 法 预测 它 的 上 限 。 直 观 地 说 ， 如 果 将 1s 看 作 可 测量 的 一 段 距离 ， 同 时 把 带宽 看 作 
在 这 段 距离 中 可 以 容纳 的 比特 数 ， 那 么 就 可 将 每 个 比特 看 作 具 有 一 定 宽 度 的 脉冲 。 例 如 ， 
在 一 条 1Mbps 的 链 路 上 ， 每 个 比特 lus 宽 ， 而 在 一 条 2Mbps 的 链 路 上 ， 每 个 比特 0. 5ps 
宽 ， 如 图 1-16 所 示 。 发 送 和 接收 技术 越 复杂 ， 每 个 比特 就 会 变 得 越 窄 ， 这 样 ， 带 宽 就 越 
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大。 对 于 进程 到 进程 的 逻辑 信道 ， 带 宽 也 受 其 他 因素 的 影响 ， 包 括 信道 实现 软件 必须 处 理 
并 可 能 转换 数据 的 每 个 比特 的 次 数 。 
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b) 以 2 Mbps 传 输 的 比特 数 (每 比特 0.5hs 宽 ) 
图 116 以 特定 带宽 传输 的 比特 可 以 看 作 具 有 一 定 的 宽度 








市 宽 和 吞吐 量 

带宽 (bandwidth) 各 吞吐 量 (throughput) 是 网 络 中 最 容易 混淆 的 两 个 词 。 虽然 我 
们 可 以 试图 给 每 个 词 下 一 个 精确 的 定义 ， 但 重要 的 是 知道 别人 怎么 使 用 这 两 个 词 ， 并 且 知 
道 它 们 如 何 互 换 。 首 先 ， 带 宽 的 字面 定义 是 频带 宽度 的 度量 。 例 如 音频 级 电话 线路 ， 支 持 
300~3300Hz 范围 内 的 频带 ， 那 么 就 说 它 的 带宽 为 3300Hz 一 300Hz 王 3000Hz。 如 果 你 看 
到 带宽 一 词 在 某 个 情况 下 以 Hz 为 单位 使 用 ， 那 么 它 可 能 是 指 能 容纳 信号 的 范围 。 

当 我 们 讨论 通信 链 路 的 带宽 时 ， 一 般 是 指 链 路 上 每 秒 所 能 传输 的 比特 数 ， 有 时 也 称 作 
数据 率 (data rate)。 我 们 可 以 说 一 个 以 太 网 的 带宽 是 10Mbps。 但 是 ， 我 们 也 可 以 做 一 个 
有 用 的 区 分 ， 即 区 分 链 路 上 的 可 用 带宽 与 链 路 中 每 秒 实 际 传输 的 比特 数 。 我 们 倾向 于 用 大 
吐 量 一 词 来 表示 一 个 系统 的 测量 性 能 Cmeasured performance) 。 这 样 ， 由 于 受到 实现 中 各 种 
低 效率 因素 的 影响 ， 由 一 段 带 宽 为 10Mbps 的 链 路 连接 的 一 对 节 反 可 能 只 达到 2Mbps 的 吞吐 
量 。 这 就 意味 着 ， 一 仓 主机 上 的 应 用 程序 能 够 以 2Mbps 的 速度 向 为 一 合 主机 发 送 数 据 。 

最 后 ， 我 们 经 常 谈论 应 用 的 带宽 需求 (requirement)， 它 是 应 用 得 以 执行 而 需要 在 网 
络 上 每 秒 传输 的 比特 数 。 对 某 些 应 用 来 说 ， 它 可 能 是 “所 有 我 能 获得 的 《带宽 )”， 对 另 一 
” 些 应 用 来 说 ， 它 可 能 是 某 个 固定 的 数值 (最 好 不 超过 可 用 链 路 带宽 )， 而 对 其 他 应 用 来 说 ， 
它 可 能 是 一 个 随时 间 变 化 的 数值 。 本 节 还 将 提供 有 关 这 个 主题 的 更 多 信息 。 


第 二 个 度量 性 能 的 尺度 是 时 延 ， 它 对 应 于 将 一 条 消息 从 网 络 的 一 端 传 到 另 一 端 所 需 花 
费 的 时 间 。( 像 解释 带宽 时 一 样 ， 我 们 也 可 以 将 讨论 重点 放 在 单条 链 路 的 时 延 或 端 到 端 信 
道 的 时 延 上 。〉 时 延 是 严格 用 时 间 来 测量 的 。 例 如 ， 一 个 横贯 北美 大 陆 的 网 络 可 能 有 24ms 
的 时 延 ， 即 一 条 消息 从 北美 的 一 端 传 到 另 一 端 将 花费 24ms。 在 很 多 情况 下 ， 更 重要 的 是 
知道 一 条 消息 从 网 络 的 一 端 传 到 另 一 端 并 返回 所 花费 的 时 间 ， 而 不 只 是 单程 的 时 延 。 我 们 
称 它 为 网 络 的 往返 时 间 (round-trip time, RTT), 

我 们 通常 认为 时 延 有 三 个 组 成 部 分 。 第 一 个 是 光速 传播 延迟 ， 发 生 这 种 延迟 的 原因 是 
没有 什么 (包括 电线 上 的 一 个 比特 ) 能 比 光 的 传播 速度 更 快 。 如 果 知 道 两 点 间 的 距离 ， 就 
可 以 计算 出 光速 的 时 延 ， 然 而 必须 注意 光 在 不 同 介质 中 以 不 同 的 速度 传播 : 它 在 真空 中 以 
3.0X108my/s 的 速度 传播 ， 而 在 电缆 中 的 传播 速度 是 2. 3X1038m/s， 在 光纤 中 的 传播 速度 
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是 2.0X108m/s。 第 二 个 是 发 送 一 个 数据 单元 花费 的 时 间 ， 它 是 网 络 带宽 和 运载 数据 的 分 
组 的 大 小 的 函数 。 第 三 个 是 网 络 内 部 的 排队 延迟 ， 因 为 分 组 交换 机 在 将 分 组 转发 出 去 之 前 
通常 需要 将 它 存储 一 段 时 间 ， 如 1. 2. 3 节 讨 论 的 那样 。 因 此 ， 我 们 定义 总 时 延 为 : 

| Latency = Propagation+ Transmit+ Queue 

Propagation = Distance/SpeedOfLight 

Transmit= Size/ Bandwidth 
其 中 ，Distance 是 数据 需要 穿越 的 线路 长 度 ，SpeedOfLight 是 光 在 线路 中 的 有 效 速 度 ， 
Size 是 分 组 的 大 小 ，Bandwidth 是 传输 分 组 的 带宽 。 注 意 ， 假 设 消息 只 包括 1 比特 且 我 们 
讨论 单条 链 路 〈 而 不 是 整个 网 络 ) 的 情况 ， 那 么 Transmit 和 Queue 的 定义 就 无 关 紧 要 了 ， 
时 延 只 与 传播 延迟 有 关 。 | 

带宽 和 时 延 结合 起 来 定义 了 一 个 给 定 链 路 或 信道 的 性 能 特征 ， 然 而 它们 的 相对 重要 性 
是 依赖 于 应 用 的 。 对 有 些 应 用 来 说 ， 时 延 比 带宽 重要 。 例 如 ， 客 户 发 送 1 字 节 消息 给 服务 
器 并 接收 返回 的 1 字 节 消息 是 受 时 延 限 制 的 。 假 设 在 准备 应 答 的 过 程 中 没有 大 量 的 计算 ， 
那么 应 用 程序 在 一 个 横贯 大 陆 的 100ms RTT 的 信道 上 与 在 一 个 穿 过 房间 的 lms RTT 信道 
上 的 执行 有 很 大 不 同 。 尽 管 信道 是 1Mbps 还 是 100Mbps 相对 来 说 并 不 重要 ， 但 是 前 者 意 
味 着 传输 1 字 节 的 时 间 (Transmit) 是 8uxs， 而 后 者 的 传输 时 间 是 0.08ps。 

对 比 之 下 ， 考 虑 一 个 数字 化 图 书馆 程序 要 获取 一 幅 25MB 的 图 像 ， 带 宽 越 宽 ， 向 用 户 
返回 图 像 的 速度 也 就 越 快 。 这 里 ， 信 道 的 带宽 决定 性 能 。 为 了 说 明 这 种 情况 ,假设 信道 带 
宽 为 10Mbps， 那 么 它 将 花 20s ((25X105 X8bit) 二 (10X106Mbps) =20s) 完成 图 像 传 
输 ， 而 图 像 是 在 lms 还 是 100ms 的 信道 上 传输 相对 来 说 并 不 重要 ，20. 001s 与 20. 1s 的 啊 
应 时 间 之 间 的 差别 是 可 以 忽略 的 。 a | 

图 1-17 显示 了 在 不 同 的 情况 下 时 延 或 带宽 如 何 决定 性 能 。 在 RITT 为 1 一 100ms K yë 
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图 1-17 在 不 同 速率 的 链 路 上 传输 不 同 大 小 对 象 的 时 延 (响应 时 间 ) 与 往返 时 间 的 对 比 
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围 内 ， 链 路 速度 是 1.5 Mbps 或 10Mbps 的 网 络 中 转移 不 同 大 小 的 对 象 (1B. 2KB, 1MB) 
”所 花 的 时 间 。 我 们 用 对 数 比例 来 说 明 相对 性 能 。 对 于 1 字 节 的 对 象 ( 如 一 次 击 键 )， 时 延 
基本 等 于 RTT， 因 此 无 法 区 别 1. 5Mbps 和 10Mbps 的 网 络 。 对 于 2KB 的 对 象 (如 一 封 电 
子 邮件 )， 链 路 速度 对 lms RTT 网 络 的 影响 较 大 ， 而 对 100ms RTT 网 络 的 影响 可 忽略 。 
而 对 于 1MB 的 对 象 (如 一 幅 数字 图 像 )，RTT 没有 任何 影响 ， 即 无 论 RTT 是 多 少 ， 都 是 
链 路 速度 决定 性 能 。 | 

注意 ， 本 书 始终 按 惯例 使 用 术语 时 延 〈latency) 和 延迟 〈delay)， 即 用 它们 来 描述 完 
成 某 一 功能 的 时 间 ， 如 传输 一 条 消息 或 转移 一 个 对 象 所 花 的 时 间 。 当 我 们 特 指 一 个 信号 从 
链 路 的 一 端 传播 到 另 一 端 所 用 的 时 间 时 ， 我 们 使 用 术语 传播 延迟 (propagation delay) 。 此 
外 ， 我 们 要 在 讨论 的 上 下 文中 分 清 是 指 单程 时 延 还 是 往返 时 间 。 

另外 ， 计 算 机 正 变 得 如 此 之 快 ， 以 至 于 当 我 们 将 其 连 到 网 络 上 时 ， 有 时 候 按 指 令 数 / 
英里 (instructions per mile) 来 考虑 〈 哪 伯 是 象征 性 的 ) 也 是 有 用 的 。 考 虑 一 个 每 秒 执行 
10 亿 条 指令 的 计算 机 向 一 条 RTT 为 100ms 的 信道 发 出 一 条 消息 ， 情 况 将 会 怎样 。 (为 了 
使 计算 更 容易 ， 假 设 消息 穿越 5 000 英里 的 距离 .如 果 计 算 机 在 等 待 应 答 信 息 的 100ms 
内 保持 空闲 ， 那 么 它 就 少 执行 1 亿 条 指令 ， 或 者 说 每 英里 少 执行 20 000 条 指令 。 网 络 上 的 
这 种 浪费 是 很 值得 我 们 反思 的 。 


1.5.2 延迟 市 宽 积 


讨论 这 两 种 度量 的 乘积 也 是 很 有 用 的 ， 通 常 称 为 延迟 带宽 积 (delay X bandwidth 
product) 。 直 观 地 说 ， 如 果 我 们 将 一 对 进程 之 间 的 信道 看 成 一 条 中 空 的 管道 ( 见 图 1-18), 
时 延 相 当 于 管道 的 长 度 ， 带 宽 相 当 于 管 延迟 
道 的 直径 ， 那 么 延迟 和 带宽 的 乘积 就 是 
管道 的 容积 ， 即 在 任意 给 定 的 时 间 内 正 带宽 
在 通过 管道 传输 的 最 大 比特 数 。 换 一 种 
说 法 ， 如 果 时 延 〈 用 时 间 度 量 ) 相当 于 ee 
管道 的 长 度 ， 那 么 给 定 每 个 比特 的 宽度 (也 用 时 间 度 量 )， 就 可 以 计算 出 管道 中 能 容纳 多 
少 比 特 。 例 如 ， 一 条 横贯 大 陆 的 信道 ， 单 向 时 延 为 50ms， 带 宽 为 454Mbps， 则 能 够 容纳 

501073 sX 45 X10® bit/s=2. 25 X 10° bit - 

或 近似 为 280KB 数据 。 换 言 之 ， 这 个 信道 (管道 ) 所 容纳 的 字 节 数 相 当 于 20 世纪 80 年 代 
初 一 台 个 人 计算 机 的 内 存 所 能 容纳 的 字 节 数 。 7 

构造 高 性 能 网 络 时 知道 延迟 带宽 积 是 很 重要 的 ， 因 为 它 相当 于 第 一 个 比特 到 达 接 收 者 
之 前 ， 发 送 者 必须 发 送 的 比特 数 。 如 果 发 送 者 希望 接收 者 给 出 比特 已 开始 到 达 的 信号 ， 而 
且 这 个 信号 返回 到 发 送 者 需要 经 过 另 一 个 信道 时 延 〈 即 我 们 对 信道 的 往返 时 延 比 单程 时 延 
更 感 兴趣 )， 那 么 发 送 者 在 接收 到 接收 者 发 出 的 信号 之 前 能 够 发 完 多 达 RTTX 带宽 的 数 
据 。 在 管道 中 的 比特 称 为 “在 飞行 中 ”， 这 意味 着 如 果 接 收 者 告诉 发 送 者 停止 发 送 ， 那 么 
在 发 送 者 准备 响应 之 前 ， 接 收 者 可 能 已 经 收 到 大 小 为 RTTX 带 宽 的 数据 了 。 在 上 面 的 例 
子 中 ， 约 有 5.5X106 比 特 (671KB) 数据 。 另 一 方面 ， 如 果 发 送 者 没有 填 满 管道 一 一 即 发 
送 数量 等 于 RTTX 带 宽 的 数据 后 才 停 下 来 等 信号 一 一 那么 发 送 者 就 不 能 充分 利用 网 络 。 

注意 ， 大 多 数 情 况 下 我 们 对 RTT 感 兴趣 。 在 这 种 情况 下 ， 我 们 简单 地 称 之 为 延迟 带 
宽 积 ， 并 不 具体 地 说 明 这 个 “延迟 ”表示 RTT ( 即 单 程 延迟 乘 以 2) 。 通 常 ，“ 延 迟 带宽 
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积 ” 中 的 “延迟 ”是 否 表示 单程 时 延 由 上 下 文明 确 地 指出 。 表 1-1 提供 了 一 些 典型 网 络 链 
接 的 延迟 带宽 积 的 实例 。 
表 1-1 延迟 市 宽 积 实例 


链 路 类 型 | ee (典型 值 ) | | 距离 (Rw) | ”往返 延迟 | 。 RTTX 带 宽 
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IM 有 多 大 ? 

当 我 们 用 到 关于 网 络 的 常见 单位 (MB, Mbps, KB 和 kbps) H, KLARER., 
首先 要 仔细 区 分 比特 Chit) MFE (byte)。 在 本 书 中 ， 我 们 总 是 用 bb 表示 比特 ， 用 B 表 
示 字 节 。 其 次 ， 务 必要 正确 使 用 兆 〈M) HF 〈K)。 例 如 ，M 等 于 27K 108, KH, k 
等 于 210 或 1053 。 糟 糕 的 是 ， Pa 2 mm ea. Ae. 

网 络 带 宽 通 常用 Mbps 指定 大 小 ， 它 是 由 控制 比特 传输 速度 的 时 钟 速度 来 决定 的 ， 
10MHz 的 时 钟 用 于 以 10Mbps 发 送 比 特 。 因 为 MHz PH M&F 10°Hz, Mbps 通常 也 定 
义 为 每 秒 105 比 特 ( 类 似 地 ，kbps 是 每 秒 103 比特 ) 。 另 一 方面 ， 当 讨论 要 发 送 的 消息 时 ， 
通常 以 KB 给 出 它 的 大 小 。 因 为 消息 存储 在 计算 机 内 存 中 ， 内 存 通 常 以 2 的 容 次 方 度量 ， 
KB 中 的 开通 常 表示 210 (XWA, MB 通常 为 20)。 当 两 者 放 到 一 起 时 ， 时 常 说 在 
10Mbps 信道 上 发 送 32KB 消息 ， 这 可 以 解释 为 以 10X106 比 特 每 秒 的 速度 发 送 32X21X8 
比特 。 本 书 中 我 们 采用 这 种 解释 ， 除 非 另 有 明确 说 明 。 

好 在 大 多 数 情 况 下 ， 我 们 对 这 种 快速 且 不 复杂 的 计算 感到 满意 ， 完 全 可 以 假想 105 就 等 
于 220 (使 得 M 的 两 种 定义 之 间 更 容易 转换 )， 这 种 近似 只 造成 5 的 误差 。 我 们 甚至 可 以 在 
某 些 情况 下 假设 1 字 节 有 10 比特 ， 这 会 造成 20 好 的 误差 ， 但 对 于 兆 级 的 估算 已 经 足够 好 了 。 

为 了 帮助 你 进行 粗略 计算 ，100ms 用 来 表示 横 穿 一 个 国家 的 往返 时 间 是 一 个 比较 合理 
的 数字 ， 至 少 在 讨论 美国 时 是 这 样 ，lms 则 是 横 穿 一 个 局 域 网 的 RTT 的 合理 近似 值 。 在 
前 一 种 情况 下 ， 我 们 把 由 光速 决定 的 在 光纤 上 传输 的 往返 时 间 从 48ms 增加 到 100ms, A 
为 ， 正 如 我 们 已 经 说 过 的 ， 还 会 有 其 他 造成 延迟 的 原因 ， 如 网 络 内 部 交换 机 的 处 理 时 间 。 
我 们 还 能 确信 两 点 之 间 的 光纤 不 是 一 条 直线 。 


1.5.3 高 速 网 络 


当今 网 络 的 可 用 带宽 正 以 惊人 的 速度 增长 ， 我 们 可 以 乐观 地 认为 它 将 永远 不 断 地 增长 

下 去 。 这 将 促使 网 络 设计 者 开始 思考 在 极限 情况 下 会 发 生 什 么 事情 ,或 者 从 为 一 =e 
如 果 带 宽 可 以 达到 无 限 ， 会 对 网 络 设计 产生 什么 影响 。 

尽管 高 速 网 络 使 应 用 可 获得 的 带宽 发 生 了 巨大 的 变化 ， 但 在 我 们 考虑 它 对 网 络 的 未 来 

所 产生 的 方方面面 的 影响 时 ， 要 注意 不 会 (ot) 随 着 带宽 的 增加 而 变化 的 方面 ， 论 速 。 

引用 《Star Trek) KÆRT 中 Scotty 的 话 来 说 ，“ 你 不 能 改变 物理 定律 ”。 换 言 之 ， 

“高 速 ” FEA EDR I E e te E LA 同样 的 比率 改善 ， 一 条 贯穿 大 陆 的 1Gbps 链 路 的 RTT 
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和 一 条 1Mbps 链 路 的 RTT 是 一 样 的 ， 都 是 100ms。 | 

虽然 时 延 是 固定 的 ， 但 持续 提高 带宽 非常 重要 ， 为 了 理解 这 一 点 ， 让 我 们 来 比较 一 下 
当 RTT 均 为 100ms 时 ， 在 1Mbps 的 网 络 和 在 1Gbps 的 网 络 上 传输 一 个 1MB 的 文件 分 别 
需要 什么 。 在 1Mbps 的 网 络 中 ， 用 80 个 RTT 来 传输 文件 ， 每 个 RTT 传输 文件 的 
1. 25%。 对 比 之 下 ， 同 样 一 个 1MB 的 文件 在 1Gbps 的 链 路 上 ， 其 至 不 足以 填 满 一 个 RTT 
的 值 ， 它 的 延迟 带宽 积 为 12. 5MB。 | | 

1-19 说 明了 两 个 网 络 的 不 同 。 事 实 上 ， 需 要 传输 的 1MB 的 文件 ， 在 1Mbps 的 网 络 
上 像 一 个 数据 流 ， 而 在 1Gbps 的 网 络 上 则 仅 像 一 个 分 组 而 已 。 为 了 使 问题 更 清楚 ， 可 以 认 
为 1MB 的 文件 对 于 1Gbps 的 网 络 而 言 ， 就 像 1KB 的 分 组 对 于 1Mbps 的 网 络 一 样 。 








1Gbps 足 国 链 路 





”1MB 数 据 二 1 条 管道 的 1/12 | 


“图 1-19 带宽 和 时 延 之 间 的 关系 。 一 个 1MB 的 文件 将 占用 
1Mbps 链 路 80 次 ， 但 仅 占 用 1Gbps 链 路 1/12 次 


结论 考虑 这 种 情况 的 另 一 种 方法 是 ， 在 高 速 网 络 上 每 个 RTT 内 能 够 传输 更 多 
的 数据 ， 传 输 速 度 如 此 高 ， 以 至 于 单个 RTT 都 变 成 了 很 大 的 时 间 量 。 因 此 ， 吕 
然 不 必 考 虑 用 101 个 RTT 与 用 100 个 RTT 的 文件 传输 之 间 的 区 别 (相对 差别 仅 
为 1%), 但 1 个 RTT 与 2 个 RTT 之 间 的 区 别 却 很 大 一 一 增加 了 100%. RAB 
说 ， 我 们 在 网 络 设计 时 考虑 的 主要 因素 应 是 时 延 而 不 是 吞吐 量 。 
或 许 理解 吞吐 量 和 时 延 的 关系 的 最 好 方法 还 是 从 基础 开始 。 在 网 络 上 可 获得 的 有 效 端 
到 端 吞吐 量 由 下 面 的 简单 关系 式 给 出 : 
Throughput= TransferSize/TransferTime 
其 中 TransferTime 不 仅 包括 本 节 前 面 讲 到 的 单程 Latency， 而 且 还 包括 请 求 或 建立 传输 的 
附加 时 间 。 通 常 ， 我 们 用 下 式 表达 它们 的 关系 : | 
TransferTime=RTT-+1 A X TransferSize 
本 式 中 ， 我 们 用 RTT 表示 在 网 上 发 一 条 请 求 消息 并 返回 数据 的 时 间 。 人 例如， 考虑 这 样 的 
情况 : 在 1Gbps 的 网 络 上 ， 用 户 要 获取 一 个 IMB 的 文件 ， 其 往返 时 间 为 100ms。Trans- 
ferTime 包括 1MB 的 传输 时 间 (1/1GbpsXx1MB=8ms) 和 100ms 的 RTT， 总 的 传输 时 间 
为 108ms。 这 意味 着 有 效 吞吐 量 不 是 1Gbps, 而 是 
| 1MB/108ms=74. 1Mbps 
显然 ， 传 输 更 大 量 的 数据 有 助 于 提高 有 效 吞 吐 量 ， 而 在 极限 条 件 下 ， 传输 数据 量 无 限 大 
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时 ， 有 效 吞 吐 量 将 接近 网 络 带 宽 。 另 一 方面 ， 有 时 不 得 不 承受 多 于 一 个 RTT 的 传输 时 间 
(例如 重 传 于 失 的 分 组 )， 这 会 降低 任何 有 限 数据 量 传输 的 有 效 吞 吐 量 ， 尤 其 是 小 数据 量 传 
输 的 有 效 吞 吐 量 。 2 


1.5.4 应 用 程序 性 能 需求 


本 节 的 讨论 以 网 络 运行 的 效率 为 中 心 展开 ， 也 就 是 说 ， 我 们 讨论 一 条 给 定 的 链 路 或 信 
道 能 支持 什么 。 在 未 加 说 明 的 情况 下 ,假设 应 用 程序 有 简单 的 需要 一 一 它们 所 需 的 带宽 ; 
网 络 所 能 提供 的 带宽 。 这 对 于 前 面 提 到 的 数字 化 图 书馆 程序 获取 一 幅 25MB 图 像 的 例子 来 
说 ， 显 然 是 成 立 的 ， 可 用 带宽 越 宽 ， 程 序 将 图 像 回 送 给 用 户 的 速度 就 越 快 。 

然而 ， 一 些 应 用 能 指明 它们 需要 的 带宽 上 限 ， 视 频 应 用 程序 是 一 个 典型 例子 。 假 设 你 
想 播放 一 个 视频 图 像 流 ， 而 它 的 大 小 是 标准 电视 图 像 的 1/4， 也 就 是 说 ， 它 的 分 辩 率 是 
352 像素 X 240 像素 。 如 果 每 一 个 像素 是 由 24 比特 的 信息 表示 的 ， 就 像 24 位 色彩 一 样 ， 
那么 每 一 帧 的 大 小 将 是 





(352 X 240 X 24) /8=247. 5KB | | 

如 果 一 个 视频 应 用 程序 需要 每 秒 发 送 30 帧 ， 那 么 它 可 能 要 求 75Mbps 的 吞吐 量 。 这 种 应 用 对 
网 络 提供 更 多 带宽 的 能 力 没有 兴趣 ， 因 为 在 一 个 给 定时 间 周 期 内 它 只 有 那么 多 数据 要 发 送 。 

不 幸 的 是 ， 实 际 情况 并 不 像 这 个 例子 所 描述 的 那么 简单 。 因 为 在 一 个 视频 流 中 ， 任 何 
两 个 相 邻 帧 之 间 的 差别 通常 非常 小 ， 可 以 通过 只 传输 相 邻 帧 之 间 的 差别 而 将 视频 压缩 。 每 
一 帧 也 可 以 被 压缩 ， 因 为 人 眼 无 法 察觉 图 像 中 的 所 有 细节 。 这 种 压缩 视频 的 流动 不 是 匀速 
的 ， 而 是 根据 动作 的 数量 、 图 片 的 细节 以 及 所 使 用 的 压缩 算法 随 着 时 间 变 化 。 因 此 ， 可 以 
说 平均 带宽 需求 是 多 少 ， 但 瞬时 速率 则 可 能 大 一 些 或 小 一 些 。 fee Pe 

关键 的 问题 是 计算 平均 值 时 使 用 的 时 间 间 隔 。 假 设 该 视频 应 用 实例 能 被 压缩 到 平均 只 
需 2Mbps。 如 果 它 在 1s 内 发 送 1Mb， 而 在 下 一 秒 内 发 送 3Mb， 那么 这 2s 间隔 内 它 发 送 的 
平均 速率 是 2Mbps。 然 而 ， 这 对 设计 在 任 一 秒 内 不 超过 2M 的 信道 而 言 没 有 多 少 帮助 。 
显然 ， 只 知道 一 个 应 用 所 需 的 平均 带宽 有 时 是 不 够 的 。 i \ 

然而 ， 一 般 我 们 可 以 为 这 种 应 用 所 发 送 的 最 大 突 发 量 设 定 一 个 上 界 。 这 种 突 发 量 可 由 
某 段 时 间 内 保持 的 峰值 速率 来 描述 ， 或 者 可 以 被 描述 为 在 转 为 平均 速率 或 一 个 更 低 的 速率 
之 前 能 以 峰值 速率 发 送 的 字 节 数 。 如 果 这 个 峰值 速率 比 可 用 信道 容量 高 ， 那 么 超出 的 数据 
不 得 不 被 放 入 某 处 的 缓冲 区 ， 以 备 以 后 发 送 。 知 道 突 发 量 的 大 小 可 以 使 网 络 设计 者 分 配 足 
够 的 缓冲 区 来 容纳 它 。 我 们 将 在 第 6 章 更 准确 地 描述 突 发 流量 这 个 主题 。 | 

正如 应 用 对 带宽 的 需求 可 能 不 是 “能 得 到 的 全 部 带宽 ”， 应 用 对 延迟 的 要 求 也 可 能 不 
是 “ 尽 可 能 少 的 延迟 ”那么 简单 。 说 到 延迟 ， 有 时 网 络 的 单程 时 延 是 100ms 还 是 500ms 
并 不 如 分 组 间 时 延 的 变化 那么 重要 。 时 延 的 这 种 变化 称 为 拌 动 jitter). \ 

考虑 源 端 每 33ms 发 送 一 个 分 组 的 情况 ， 这 正 是 视频 应 用 中 每 秒 传输 30 帧 的 情况 。 如 
果 帧 恰好 每 隔 33ms 到 达 目 的 地 ， 那 么 我 们 可 以 推断 ， 网 络 中 每 个 分 组 经 过 的 延迟 恰好 相 
同 。 然 而 ， 如 果 分 组 到 达 目 的 地 的 间隔 一 一 有 时 称 为 分 组 间距 (inter-packet gap) 是 
变化 的 ， 那 么 分 组 的 序列 所 经 历 的 延迟 一 定 也 是 变化 的 ， 称 为 网 络 在 分 组 流 之 间 有 拌 动 ， 
如 图 1-20 所 示 。 这 种 变化 通常 不 是 由 单条 物理 链 路 引起 的 ， 而 是 在 多 跳 分 组 交换 网 中 由 
分 组 经 历 的 不 同 排队 延迟 引起 的 。 排 队 延 迟 相当 于 本 节 前 面 定 义 的 延迟 中 的 Queue 部 分 ， 
它 是 随时 间 变 化 的 。 | Bowes, « | 
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图 1-20 由 网 络 引 起 的 拌 动 


为 了 理解 与 抖动 相关 的 内 容 ， 假 设 网 络 中 传输 的 分 组 含有 视频 帧 ， 为 了 在 屏幕 上 显示 
LEW, BEAR EIR 33ms 接收 一 个 新 帧 。 如 果 一 个 由 提前 到 达 ， 那 么 接收 器 会 将 它 
保存 到 需要 显示 的 时 候 。 然 而 ， 如 果 一 个 帧 迟到 了 ， 那 么 接收 者 将 没有 所 和 需 的 帧 来 及 时 刷 
新 屏幕 ， 视 频 质量 就 会 下 降 ， 画 面 可 能 不 平滑 。 注 意 ， 我们 不 必 消 除 拌 动 ， 只 要 知道 它 的 
最 坏 程 度 即 可 。 因 为 如 果 接 收 器 知道 一 个 分 组 所 经 历 的 延迟 的 上 界 和 下 界 ， 就 可 以 将 视频 
的 开始 〈 即 显示 第 一 帧 ) 推迟 足够 长 的 时 间 ， 以 保证 将 来 需要 时 总 有 帧 显示 。 接 收 者 通过 
将 这 个 帧 存放 在 缓冲 区 中 实现 帧 延迟 以 有 效 地 平滑 抖动 。 第 9 章 我 们 会 再 讨论 抖动 问题 。 





1.6 小 结 


计算 机 网 络 ， 特 别 是 因特网 ， 在 过 去 的 30 年 中 经 历 了 突飞猛进 的 发 展 ， 现 在 已 经 能 
够 提供 从 管理 商业 到 提供 娱乐 到 建立 社交 网 络 的 广泛 服务 。 能 够 取得 这 样 的 发 展 很 大 程度 
上 归功 于 计算 机 网 络 的 通用 性 ， 特 别 是 能 够 通过 编写 运行 在 不 太 昂 贵 的 高 性 能 计算 机 上 的 
软件 来 为 网 络 添加 新 的 功能 。 因 此 ， 本 书 最 主要 的 目标 就 是 按照 这 样 一 种 方法 来 描述 计算 
机 网 络 ， 当 你 读 完 本 书 时 将 会 感觉 到 ， 如 果 有 一 支 程 序 员 队 伍 由 你 指挥 ， 你 就 能 够 从 头 建 
立 一 个 具备 完整 功能 的 计算 机 网 络 。 本 童 为 实现 这 个 目标 奠定 了 基础 。 

实现 这 个 目标 的 第 一 步 是 仔细 甄别 我 们 从 网 络 中 真正 希望 得 到 什么 。 例 如 ， 网 络 首先 
必须 在 一 组 计算 机 之 间 提 供 高 性 价 比 的 可 扩展 的 连接 。 这 是 通过 节点 和 链 路 的 骨 套 互联 来 
完成 的 ， 并 通过 使 用 统计 多 路 复 用 来 共享 硬件 基础 设施 。 这 样 就 得 到 一 个 分 组 交换 网 ， 然 
后 我 们 在 它 上 面 定 义 一 系列 进程 到 进程 的 通信 服务 。 | 

第 二 步 是 定义 一 个 分 层 的 体系 结构 ， 作 为 我 们 的 设计 蓝图 。 这 个 体系 结构 的 核心 对 象 
是 网 络 协议 。 协 议 既 向 较 高 层 协 议 提供 通信 服务 ， 同 时 又 定义 与 另 一 些 机 器 上 运行 的 对 等 
实体 之 间 交 换 信息 的 格式 和 含义 。 我 们 简单 地 探讨 了 两 种 使 用 最 广泛 的 体系 结构 :OSI 体 
系 结构 和 因特网 体系 结构 。 无 论 是 组 织 结 构 还 是 实例 来 源 ， 本 书 更 贴近 因特网 体系 结构 。 

第 三 步 是 实现 网 络 协议 和 应 用 程序 ， 它 通常 由 软件 来 完成 。 不 论 协议 还 是 应 用 ， 都 需 
要 一 个 接口 ， 它 们 通过 这 个 接口 调用 网 络 子 系统 中 其 他 协议 的 服务 。 在 应 用 程序 和 网 络 子 
系统 之 间 最 常用 的 接口 是 套 接 字 接口 ， 但 它 与 网 络 子 系统 内 部 常用 的 接口 有 一 些微 小 
差别 。 

最 后 ， 网 络 作为 一 个 整体 必须 提供 高 性 能 ， 其 中 ， 我 们 最 关心 的 两 个 性 能 指标 是 带宽 
和 吞吐 量 。 正 如 我 们 将 在 后 面 几 章 中 会 看 到 的 那样 ， 正 是 这 两 个 指标 的 乘积 一 一 延迟 带宽 
积 一 一 在 协议 设计 中 起 着 决定 性 作用 。 


接 下 来 会 发 生 什么 : 云 计算 


毫 无 疑问 ， 计 算 机 网 络 正成 为 许多 人 日 常生 活 的 一 部 分 。 从 40 多 年 前 像 APPANET 
(通过 长 途 电话 线 连 接 大 型 计算 机 ) 这 样 的 实验 性 系统 开始 ， 到 如 今 计算 机 网 络 已 经 变 成 
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了 我 们 生活 中 普遍 存在 的 一 部 分 。 网 络 已 经 变 成 了 大 型 产业 ， 哪 里 有 大 型 产业 ， 哪 里 就 有 
众多 的 使 用 者 。 在 这 种 情况 下 诞生 的 计算 行业 已 经 越 来 越 多 地 参与 到 计算 和 通信 的 集成 
中 ;电话 和 有 线 电 视 运 营 商 也 认识 到 不 仅 要 发 展 语音 和 电视 业务 ， 还 要 开拓 传输 各 类 数据 
的 市 场 ; 另 外， 也 许 最 重要 的 是 大 量 企业 家 创建 了 基于 因特网 的 新 应 用 和 新 服务 ， 如 IP 
语音 《Voice Over IP，VOIP)、 在 线 游戏 、 虚 拟 世 界 、 搜 索 服务 、 内 容 托管 、 电 子 商 务 
等 。 值 得 注意 的 是 ， 当 今 在 “ 云 计算 ”中 最 响亮 的 名 字 之 一 一 一 Amazon. com， 它 赢得 当 
前 显赫 地 位 的 方法 是 ， 先 采用 因特网 技术 出 售 图 书 等 商品 ， 然 后 将 他 们 的 计算 架构 作为 网 
络 上 的 服务 提供 给 其 他 人 使 用 。 

多 年 前 ,网 络 的 一 个 合理 目标 也 许 是 为 每 一 个 家 庭 提供 网 络 接 和 人， 但 至 少 是 在 发 达 国 
家 ， 这 个 过 程 已 经 很 久远 了 。 无 处 不 在 的 网 络 现在 允许 用 户 从 任何 地 方 访问 ， 包 括 在 飞机 
和 火车 上 ， 以 及 在 不 断 增加 的 各 类 设备 上 。 因 特 网 在 固定 主机 时 期 经 历 了 巨大 演变 ， 然 后 
是 个 人 电脑 时 期 ， 现 在 互联 起 来 的 设备 包括 移动 电话 以 及 传感器 (传感器 也 有 可 能 是 移动 
的 ) 等 更 小 的 设备 。 因 此 ， 似 乎 很 清楚 的 一 点 是 ， 因 特 网 不 得 不 继续 扩展 以 支持 比 现在 多 
几 个 数量 级 的 设备 ， 而 且 很 多 设备 是 移动 的 ， 它 们 可 能 通过 质量 变化 极 大 的 无 线 链 路 断 断 
续 绥 地 连接 到 网 络 。 同 时 ， 这 些 设 备 将 被 连接 到 大 型 数据 中 心 ， 其 中 包含 几 万 个 处 理 需 和 
许多 PB 字 节 的 存储 空间 ， 数 据 中 心 将 存储 和 分 析 所 产生 的 数据 ， 并 和 希望 实现 有 助 于 我 们 
管理 日 常生 活 的 更 强大 的 应 用 。 我 们 持 有 的 设备 通常 只 是 接 入 “ 云 ”( 云 是 用 于 存储 和 人 处 
理 文档 、 照 片 、 数 据 和 社交 网 络 等 内 容 的 不 固定 的 机 器 集合 ) 的 一 种 手段 ， 而 且 和 希望 能 
从 任何 地 方 接 人 。 

有 关 网 络 未 来 的 预言 有 一 个 趋势 ， 就 是 这 些 言论 过 几 年 就 会 显得 很 傻 〈 好 多 高 调 的 预 
言 都 未 能 成 真 ， 如 因特网 将 濒临 朋 尝 )。 我 们 能 够 确信 的 是 依然 存在 大 量 技术 挑战 一 一 连通 
性 、 可 管理 性 ， 可 扩展 性 、 可 用 性 、 性 能 、 可 靠 性 、 安 全 、 公 平 性 、 成 本 效益 等 。 当 前 的 技 
术 水 平 与 很 多 人 认为 的 全 球 无 处 不 在 的 异 构 网 络 之 间 已 经 很 接近 了 。 换 言 之 ， 网 络 领域 非常 
活跃 ， 有 很 多 有 趣 的 问题 需要 解决 ， 这 些 问题 以 及 解决 问题 的 工具 正 是 本 书 的 重点 。 


扩展 阅读 


计算 机 网 络 并 不 是 第 一 个 进入 社会 日 常生 活 的 面向 通信 的 技术 。 例 如 ，20 世纪 初 电 
话 的 出 现 ， 以 及 之 后 50 年 代 时 电视 的 普及 。 当 我 们 考虑 网 络 的 未 来 ， 即 它 将 分 布 得 多 么 
广 和 我 们 将 如 何 使 用 它 时 ， 研 究 它 的 发 展 历史 是 很 有 益 的 。 我 们 的 第 一 篇 参考 文献 是 研究 
网 络 的 一 个 好 的 起 点 〈 整 篇 文章 描述 了 电信 发 展 过程 中 前 100 年 的 历史 ) 。 

第 二 篇 和 第 三 篇 文章 分 别 是 有 关 OSI 和 因特网 体系 结构 的 开创 性 文章 。 最 后 两 篇 文章 
不 是 针对 网 络 的 ， 但 却 提前 阐明 了 本 书 中 “系统 方法 ”的 观点 。Saltzer 等 人 的 文章 提供 并 
描述 了 系统 设计 中 使 用 最 广泛 的 规则 之 一 ， 即 端 到 端 观点 (end-to-end argument)， 这 篇 
文章 直到 今天 依然 保持 着 较 高 的 引用 率 。Mashey 的 文章 描述 精简 指令 集 (Reduced In- 
struction Set Computer, RISC) 体系 结构 隐 含 的 思想 ， 正 如 我 们 即将 揭示 的 ， 将 功能 置 于 
一 个 复杂 系统 的 合适 位 置 正 是 系统 设计 所 要 解决 的 问题 。 

e Pierce, J. Telephony—A personal view. IEEE Communications 22 (5): 116-120, 

May 1984. 

e Clark, D. The design philosophy of the DARPA Internet protocols. Proceedings of 

the SIGCOMM’88 Symposium, pages 106-114, August 1988. | 
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=e Saltzer, J., D. Reed, and D. Clark. End-to-end arguments in system design. ACM 
=- Transactions on Computer Systems 2 (4); 277-288, November 1984. 
e Mashey, J. RISC, MIPS, and the motion of complexity. UniForum 1986 Con fer- 
ence Proceedings, pages 116-124, February 1986. 

还 有 几 篇 文章 介绍 了 计算 机 网 络 ，Stallings 给 出 有 关 这 个 题目 的 百科 全 书 式 的 叙述 ， 
重点 在 OSI 分 层 结构 的 低层 [Sta07]; Comer 给 出 对 因特网 体系 结构 的 综述 L Comos]. 

如 果 你 要 用 更 广阔 的 眼界 来 看 计算 机 网 络 ， 有 两 本 书 是 必须 读 的 ， 其 中 一 本 描述 过 
去 ， 另 一 本 展望 未 来 。 第 一 本 是 Holzmann 和 Pehrson 的 The Early History of Data Net- 
works [HP95]。 令 人 惊讶 的 是 ， 这 本 书 中 的 很 多 思想 是 18 世纪 提出 的 。 第 二 本 书 Reali- 
zing the Information Future: The Internet and Beyond， 由 美国 国家 研究 委员 会 的 计算 机 
科学 和 电信 部 LNRC94| 编号 。 

在 本 书 中 ， 我 们 努力 将 系统 方法 用 于 计算 机 网 络 领域 。 我 们 推荐 Saltzer 和 Kaashoek 
的 general treatment of computer systems [SK09]， 这 本 书 讲解 适用 于 网 络 以 及 其 他 系统 
的 很 多 重要 原理 。 操 作 系 统 对 网 络 的 很 多 方面 都 是 非常 重要 的 ，Tanenbaum [Tan07] 提 
BET xt OS 概念 的 介绍 。 

若 要 从 头 追 溯 因 特 网 的 发 展 历史 ， 读 者 应 当 仔 细 阅 读 因 特 网 的 RFC (Request for Com- 
ments) 系列 文档 。 文 档 内 容 从 TCP 规范 到 轧 他 笑话， 包罗万象， 获取 地 址 为 http:// 
www. ietf, org/rfc. html。 例 如 ， TCP, UDP 和 1 了 IP 的 协议 规范 分 别 是 RFC793、768 和 791。 

为 了 更 好 地 了 人 解 因特网 的 哲学 和 文化 ， 推 荐 阅读 两 篇 文章 ， 这 两 篇 文章 的 叙述 也 非常 
生动 有 趣 。Padlipsky 给 出 对 网 络 早 期 发 展 的 描述 ， 包 括 因 特 网 和 OSI 体系 结构 的 详细 比 
较 [Pad85]。 如 果 想 知道 此 后 在 因特网 工程 任务 组 Internet Engineering Task Force, 
IETF) 中 真实 发 生 的 事情 ， 我 们 推荐 Boorsook 的 文章 [Boo95]. 

有 大 量 的 文章 讨论 有 关 协 议 实现 的 各 个 方面 。 有 关 协 议 实现 最 好 从 理解 两 个 完整 的 协 

议 实现 环境 开始 : SEA System V Unix 的 流 机 制 LRit84] 和 x- kernel LHP91],. Ab, 
[LMKQ89] 和 [SW95] 描述 了 使 用 广泛 的 Berkeley Unix 中 TCP/IP 的 实现 。 
更 为 普遍 的 是 ， 有 大 量 的 工作 致力 于 解决 构造 和 优化 协议 实现 的 问题 。Clark 是 最 早 
讨论 模块 化 设计 与 协议 性 能 之 间 关 系 的 人 之 一 LCla82」]。 后 来 的 文章 则 介绍 在 构造 协议 代 
码 时 加 上 调用 的 使 用 LCla85」 及 研究 TCP 的 处 理 开销 LCJRS89]。 最 后 ，LWM87」]」 讲述 
如 何 通过 选择 适当 的 设计 和 实现 方案 来 获得 效率 。 

有 几 篇 文章 介绍 用 于 提高 协议 性 能 的 具体 技术 和 机 制 。 例 如 ，[HMPT89] 讲述 z- 
. kernel 中 用 到 的 一 些 机 制 ，LMD93]、LVL87] 和 LDP93] 也 描述 了 其 他 提高 协议 性 能 的 
技术 。 同 时 ，LBG93] 和 LNYKT94] 讨论 在 并 行 处 理 器 上 运行 的 协议 的 性 能 ， 在 这 种 环 
境 中 ， 加 锁 是 关键 的 问题 。 

最 后 ， 我 们 用 一 组 不 断 更 新 的 参考 文献 作为 每 一 章 中 “扩展 阅读 ”一 节 的 结束 ， 也 就 
ze WWW 上 的 一 组 URL 地 址 ， 从 中 可 以 了 解 与 该 章 所 讨论 主题 有 关 的 更 多 东西 。 由 于 参 
考 文献 是 不 断 更 新 的 ， 不 可 能 无 限期 地 保持 不 变 。 所 以 ， 我 们 把 每 章 结尾 的 网 址 集中 在 这 
样 一 些 站 点 上 ， 这 些 站 点 提供 软件 、 服 务 、 报 告 工作 组 或 标准 化 组 织 正在 开展 的 活动 。 换 
言 之 ， 对 于 那些 不 易于 用 标准 引文 引用 的 材料 ， 我 们 只 给 出 其 URL。 本 章 给 出 3 个 网 址 : 

e http://mkp. com/computer-networks; 有 关 本 书 的 信息 ， 包 括 附录 、 补 遗 等 。 

。 http://www. ietf. org/: 有 关 IETF 和 它 的 各 个 工作 组 的 信息 。 
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e http://dblp. uni-trier. de/db/index. html， 可 搜索 有 关 网 络 研 究 论 文 的 文献 目录 。 


习题 
1. 使 用 匿名 FTP 连接 到 ftp. rfc. editor. org Cin-notes Asx), AR RFC 索引， 同时 获取 TCP, IP 和 UDP 
的 协议 规范 。 

2. Unix 工具 whois 可 用 来 查找 一 个 组 织 对 应 的 域名 ， 或 查找 域名 对 应 的 网 络 地 址 。 阅 读 whois 的 主页 文 
档 并 试用 它 。 对 于 初学 者 ， 试 用 whois princeton. edu 和 whois Princeton， 也 可 以 通过 http:// 
www. internic. net/ whois. html 研究 whois 接口 。 

. 计算 在 下 列 情况 下 传输 一 个 1 000KB 的 文件 所 需 的 总 时 间 ， 假 设 RTT 为 50ms， 分 组 长 度 为 IKB， 在 
数据 发 送 前 的 初始 “握手 ”时 间 为 2XRTT。 

Ca) 带宽 为 1.5Mbps， 数 据 分 组 可 连续 发 送 。 

(b) 带宽 为 1. 5Mbps， 人 RTT 后 再 发 送 下 一 个 分 组 。 

Cc) 带宽 是 “无 限 的 ”， 这 意味 着 我 们 可 以 认为 传输 时 间 为 0， 且 每 个 RTT 最 多 发 送 20 个 分 组 。 

Cd) 带宽 是 无 限 的， 在 第 一 个 RTT 内 能 发 送 一 个 分 组 〈2! 1)， 在 第 二 个 RTT 内 能 发 送 两 个 分 组 
(22-!1)， 在 第 三 个 RTT 内 能 发 送 四 个 分 组 〈23-1)， 依 此 类 推 。( 我 们 会 在 第 6 章 中 给 出 指数 增长 
的 原因 。) 

v 4. 计算 在 下 列 情况 下 传输 一 个 1.5MB 的 文件 所 需 的 总 时 间 ， 假设 RTT 为 80ms， 分 组 长 度 为 1IKB， 在 数 

据 发 送 前 的 初始 “握手 ”时 间 为 2XRTT。 

Ca) 带宽 为 10Mbps， 数 据 分 组 可 连续 发 送 。 

Cb) 带宽 为 10Mbps， 但 发 送 完 每 个 分 组 后 必须 等 一 个 RTT 后 再 发 送 下 一 个 分 组 。 

Co) 链 路 允许 无 限 快 地 传输 ， 但 限制 带宽 使 每 个 RTT 最 多 能 发 送 20 个 分 组 。 

(d 和 (c) 一 样 ， 传 输 时 间 为 0， 但 在 第 一 个 RTT 内 能 发 送 一 个 分 组 ， 在 第 二 个 RTT 内 能 发 送 两 个 
分 组 ， 在 第 三 个 RIT 内 能 发 送 四 个 分 组 〈23 -1)， 依 此 类 推 。 (我 们 会 在 第 6 章 中 给 出 指数 增长 
的 原因 。) 

5. 考虑 一 个 长 度 为 4km 的 点 到 点 链 路 。 对 一 个 100 字 节 的 分 组 ， 带 宽 为 多 大 时 传播 延迟 (速度 为 2X103 
m/s) 等 于 传输 延迟 ? 对 于 512 字 节 的 分 组 ， 情 况 如 何 ? 

v 6. 考虑 一 个 长 度 为 50km 的 点 到 点 链 路 。 对 一 个 100 字 节 的 分 组 ， 带 宽 为 多 大 时 传播 延迟 〈 速 度 为 2X 

08m/s) 等 于 传输 延迟 ? 对 于 512 字 节 的 分 组 ， 情 况 如 何 ? 
7. 邮政 地 址 的 哪些 特性 可 能 被 网 络 寻 址 方案 借鉴 使 用 ? 你 希望 找到 哪些 差别 ? 电话 号 码 的 哪些 特性 可 能 
被 网 络 寻 址 方案 借鉴 使 用 ? 
8. 地 址 的 一 个 特性 是 唯一 性 ， 如 果 两 个 节点 有 相同 的 地 址 便 无 法 区 分 。 网 络 地 址 还 可 能 有 哪些 有 用 的 特 
性 ? 你 能 想象 网 络 (或 邮政 、 电 话 ) 地 址 可 以 不 唯一 的 任何 情况 吗 ? 

9. 给 出 一 个 适合 使 用 多 点 播送 地 址 的 例子 。 

10. STDM 是 语音 电话 网 络 有 效 的 多 路 复 用 形式 ， 而 FDM 是 电视 和 广播 有 效 的 多 路 复 用 形式 ， 它 们 在 通 
信 模 式 上 有 什么 不 同 ? 通用 的 计算 机 网 络 中 不 使 用 这 两 种 形式 是 由 于 性 价 比 低 的 原因 吗 ? 

11. 在 1Gbps 的 链 路 上 1 个 比特 有 和 多“ 宽 ”? 假设 传播 速度 为 2. 3X10 m/s， 在 铜 线 上 1 个 比特 有 多 长 ? 

12. 在 一 个 yMbps 的 链 路 上 传输 zKB 的 数据 需要 花费 多 长 时 间 ? 用 z 与 y 比率 的 形式 给 出 答案 。 

13. 假设 在 地 球 和 新 的 月 球 定居 地 之 间架 设 了 一 条 1Gbps 的 点 到 点 链 路 。 从 月 球 到 地 球 的 距离 大 约 是 

385 000km， 而 且 数 据 在 链 路 上 以 光速 传播 ， a 2X 10°m/s. 

(a) 计算 链 路 的 最 小 RTT. 

(b) 使 用 RTT 作为 延迟 ， 计 算 链 路 的 延迟 带宽 积 。 

Cc) 在 (Cb) 中 计算 的 延迟 带宽 积 的 意义 是 什么 ? 

(d) 在 月 球 基地 上 的 一 部 照相 机 拍摄 了 一 张 地 球 的 照片 ， 并 以 数字 的 形式 存 人 磁盘 。 假 设 地 球 上 的 任 
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务 控 制 中 心 希望 下 载 最 新 的 图 像 ， 大 小 是 25MB。 计 算 从 发 出 请 求 到 传输 完毕 耗费 的 最 小 时 间 。 


. 假设 在 地 球 和 一 个 火星 探测 车 之 间架 设 了 一 条 128kbps 的 点 到 点 链 路 。 从 火星 到 地 球 的 距离 〈 当 它们 


离 得 最 近 时 ) 大 约 是 55Gm， 而 且 数据 在 链 路 上 以 光速 传播 ， 即 3X10?m/s。 

(a) 计算 链 路 的 最 小 RTT. 

Cb) 计算 链 路 的 延迟 带宽 积 。 

(c) 探测 车 上 的 一 部 照相 机 拍摄 周围 的 照片 ， 并 发 送 回 地 球 。 计 算 从 拍 完 一 幅 图 像 到 这 幅 图 像 到 达 地 
球 上 的 任务 控制 中 心 所 用 的 时 间 。 假 设 每 幅 图像 的 大 小 为 OMB, 


. 对 于 下 面 列 出 的 在 远程 文件 服务 器 上 的 操作 ， 讨 论 它们 是 对 延迟 敏感 i 还 是 对 带宽 敏感。 


(a) 打开 文件 。 

(b) 读 出 文件 的 内 容 。 
Cc) 列 出 目录 中 的 内 容 。 
(d) 显示 文件 的 属性 。 


. 计算 下 列 情 况 的 时 延 〈 从 第 一 个 比特 发 送 到 最 后 一 — 7S Eb RF BED 


(a) 100Mbps 以 太 网 ， 其 路 径 上 有 一 个 存储 转发 式 交换 机 ， 分 组 长 度 为 12 000 比特 。 假设 每 条 链 路 
的 传播 延迟 为 10us， 并 且 交 换 机 在 接收 完 分 组 后 立即 转发 分 组 。 

b 有 三 个 交换 机 ， 其 他 同 Cad. 

Co) 同 〈a)， 但 是 假设 交换 机 实现 “直通 式 ” 交 换 : 可 以 在 收 到 分 组 的 前 200 比特 后 就 开始 转发 该 分 组 。 


. 计算 下 列 情况 的 时 延 〈 从 第 一 个 比特 发 送 到 最 后 一 个 比特 接收 ): 


(a) 1Gbps 以 太 网 ， 其 路 径 上 有 一 个 存储 转发 交换 机 ， 分 组 长 度 为 5 000 比特 。 假 设 每 条 链 路 的 传播 
延迟 为 10us， 并 且 交 换 机 在 接收 完 分 组 后 立即 开始 转发 该 分 组 。 

Cb) 同 〈a) ， 但 是 有 三 个 交换 机 。 

Cc) 同 (b), 但 是 假设 交换 机 实现 “直通 式 ” 转 发 : 可 以 在 收 到 分 组 的 前 128 比特 后 就 开始 转发 该 
分 组 。 

计算 下 列 情况 的 有 效 带 宽 。 对 于 (a) 和“〈b)， 假设 要 发 送 的 数据 来 源 稳定 ; 对 于 Cc), AiR 12 个 

小 时 的 平均 值 。 

(a) 10Mbps 以 太 网 通过 三 个 存储 转发 交换 机 转发 ， 同 习题 16 b) 中 的 情况 。 交 换 机 在 一 条 链 路 上 
接收 数据 的 同时 可 以 在 另 一 条 链 路 上 发 送 数据 。 

Cb) 同 (a)， 但 是 发 送 方 在 每 发 12 000 比特 数据 分 组 后 必须 等 待 一 个 50 字 节 的 确认 分 组 。 

(c) 100 个 DVD (每 个 4.7GB) eR (12 小时) 传输 。 


N 


. 计算 下 列 链 路 的 延迟 带宽 积 。 使 用 单 向 延迟 ， 按 从 第 一 个 比特 发 送 到 第 一 个 比特 接收 计算 。 


(a) 100Mbps ARA, 4ER 10s。 

(b) 100Mbps 以 太 网 ， 有 一 个 存储 转发 交换 机 ， 同 习题 b) 中 的 情况 ， 分 组 长 度 为 12 000 比特 。 
每 条 链 路 的 传播 延迟 为 10ps。 

Ce) 1. 5Mbps T1 链 路 ， 贯 穿 大 陆 的 单 向 延迟 为 50ms。 

Cd) 通过 一 个 地 球 同 步 轨道 卫星 的 1.5Mbps T1 链 路 ， 卫 星 高 度 为 35 900km。 了 唯一 的 延迟 为 从 地 球 到 
卫星 的 往返 光速 传播 延迟 。 

如 图 1-21 所 示 ， 主 机 A 和 B 分别 通 过 100Mbps 链 路 连接 到 交换 机 S 上 。 每 条 链 路 的 传播 延迟 为 

20ps。S 是 一 个 存储 转发 式 设备 ， 它 在 收 到 一 个 分 组 35u 后 再 开始 将 其 转发 。 计 算 从 A 到 了 B 发 送 

10 000 比 特 所 需 的 总 时 间 。 

(a) 作为 一 个 分 组 。 

(b) 作为 两 个 5 000 比特 的 分 组 一 个 紧 接 另 一 个 发 送 。 





图 1-21 习题 20 图 
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假设 某 主 机 有 一 个 IMB 的 文件 要 发 送 给 另 一 台 主机 。 文 件 用 1s CPU 时 间 压 缩 50% ， 或 者 用 2s 压缩 

60%, | 

(a) 计算 当 带 宽 为 多 少时 ， 两 种 压缩 选择 的 压缩 时 间 十 传输 时 间 的 值 相 等 。 

Cb) 解释 为 何 时 延 不 影响 你 的 答案 。 

假设 某 一 通信 协议 的 每 个 分 组 用 于 首部 和 建立 帧 的 信息 开销 为 50 字 节 。 我 们 利用 此 协议 来 发 送 10° 

字 节 的 数据 ， 但 是 ,分 组 中 一 旦 有 一 个 字 节 被 破坏 ， 包 含 该 字 节 的 整个 分 组 将 丢失 。 给 出 分 组 长 度 

分 别 为 1 000 字 节 、10 000 字 节 和 20 000 字 节 时 ,信息 开销 与 丢失 字 节 的 总 数 。 分 组 长 度 为 哪个 值 

时 是 最 优 的 ? 

假设 在 一 条 由 信 源 、 信 宿 、7 条 点 对 点 链 路 和 5 个 交换 机 组 成 的 网 路 上 传输 n 字 节 的 文件 。 假 设 每 条 

链 路 的 传播 延迟 为 2ms， 带 宽 为 4Mbps， 而 且 交 换 机 支持 电路 交换 和 分 组 交换 。 你 可 以 把 文件 分 割 ， 

成 LKB 的 分 组 或 在 交换 机 之 间 建 立 起 一 个 电路 并 把 文件 作为 一 个 连续 的 比特 流 发 送 。 假 设 每 个 分 组 

有 24 字 节 的 分 组 首部 信息 和 1 000 字 节 的 有 效 载荷 ， 而 且 每 个 交换 机 在 完全 收 到 一 个 分 组 后 对 分 组 

进行 存储 转发 的 过 程 会 引起 lms 的 延迟 ， 分 组 可 以 被 连续 发 送 而 不 需要 等 待 确认 ， 建 立 电路 需要 发 - 

送 1KB 的 消息 ， 在 路 径 上 往返 一 次 在 每 个 交换 机 产生 lms 的 延迟 。 假 设 交换 机 不 会 给 通过 电路 的 数 

据 带 来 延迟 。 也 可 以 假设 文件 大 小 是 1 000 字 节 的 整数 倍 。 

(a) 文件 大 小 为 多 少 个 字 节 时 ， 电 路 交换 在 网 络 上 发 送 的 总 字 节 数 少 于 分 组 交换 ? 

(b) 文件 大 小 为 多 少 个 字 节 时 ， 电 路 交换 使 整个 文件 到 达 目 的 地 时 产生 的 总 延迟 小 于 分 组 交换 ? 

(c) 以 上 结果 是 与 路 径 上 交换 机 的 数目 有 什么 关系 ? 与 链 路 的 带宽 有 什么 关系 ?与 分 组 首部 大 小 和 分 
组 大 小 之 比 又 有 什么 关系 ? | | 

(d) 本题 给 出 的 网 络 模型 能 否 准 确 反映 电路 交换 和 分 组 交换 的 优 缺 点 ? 是 否 忽略 了 使 这 两 种 交换 方式 
受到 质疑 的 重要 因素 ? 如 果 有 ， 这 些 因 素 是 什么 ? T 

考虑 一 个 闭环 网 络 (如 令 牌 环 )， 带 宽 为 100Mbps， 传 播 速度 为 2X 108 m/s。 假 设 节点 不 产生 延迟 ， 

环 的 周 长 为 多 少时 恰好 可 容纳 一 个 1500 字 节 的 分 组 ? 如果 每 100m 一 个 节点 ， 且 每 个 节点 的 延迟 为 

10 比特 ， 环 的 周 长 应 为 多 少 ? 

根据 带宽 、 延 迟 和 拌 动 ， 比 较 语音 传输 和 实时 音乐 传输 对 信道 的 需求 。 有 哪些 必须 要 改进 的 地 方 ? 

改进 幅度 大 约 是 多 少 ? 可 否 放 宽 对 任 一 种 信道 的 需求 ? 

下 列 情况 下 ， 假 设 不 对 数据 进行 压缩 ， 尽 管 这 在 实际 应 用 中 几乎 是 不 可 能 的 。 对 于 (a) ~ (oc), H 

算 实时 传输 需要 的 带宽 : 

(a) 视频 的 分 辩 率 为 640 像素 X480 像素 ，3B/ 像 素 ，30 帧 /s。 

(b) 视频 的 分 辨 率 为 160 像素 X120 像素 ，1B/ 像 素 ，5 帧 /s。 

(ce) CD-ROM 音乐， 假设 CD 播放 75 分钟 ， 大 小 为 650MB。 

(d) 假设 一 个 传真 机 以 每 英寸 72 像素 的 分 辩 率 发 送 一 幅 8 英寸 X10 英寸 的 黑白 图 像 。 在 14.4 kbps 
的 调制 解 调 器 上 需要 传输 多 长 时 间 ? 


. 下 列 情况 下 ， 和 上 题 一 样 ， 假 设 不 对 数据 进行 压缩 。 计 算 实时 传输 需要 的 带宽 : 


(a) HDTV 高 清晰 度 视频 ,分辨 率 为 1 920 像素 X1 080 像素 ，24 位 /像素 ，30 W/E. 


Cb) 8 比特 POTS (普通 的 电话 服务 ) 语音 音频 ， 采 样 频率 为 8KHz。 


Cc) 260 比特 GSM 移动 语音 音频 ， 采 样 频率 为 50Hz。 

(d 24 比特 HDCD 高 保 真 音频 ， 采 样 频率 为 88. 2KHz。 

根据 平均 带宽 、 峰 值 带宽 、 时 延 、 拌 动 和 丢失 容 限 ， 讨 论 与 下 列 应 用 相关 的 性 能 需求 : 
Ca) 文件 服务 器 。 
Cb) 打印 服务 器 。 

Cc) 数字 化 图 书馆 。 

(d) 远程 气象 设备 定时 监视 。 


Ce) 语音 。 
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CL) 候车 室 视频 监视 。 
(g) 电视 广播 。 

假设 共享 介质 M 以 循环 方式 向 主机 Al 、Az e An 提供 传输 一 个 分 组 的 机 会 ， 没 有 分 组 要 传 的 主 
机 立即 放弃 M。 它 与 STDM 有 何不 同 ? 与 STDM 相 比 ， 这 种 方式 对 网 络 的 利用 率 如 何 ? 


. 考虑 在 链 路 上 传输 文件 的 一 个 简单 协议 。 经 过 一 些 初始 协商 后 ，A 向 B 发 送 长 度 为 1KB 的 分 组 ， 然 


后 B 回答 一 个 确认 信息 。A 在 发 送 下 一 个 数据 分 组 前 都 要 等 待 ACK， 这 就 是 我 们 熟知 的 停止 和 等 待 
(stop-and-wait)。 述 到 的 分 组 被 认为 已 丢失 并 重 传 。 
(a) 在 不 考虑 分 组 丢失 和 重复 的 情况 ， 说 明 为 何在 分 组 首部 中 不 需要 包括 任何 “序号 ”数据 。 

(b) 假设 链 路 偶尔 会 委 失 分 组 ， 但 实际 到 达 的 分 组 总 是 按 发 送 的 顺序 到 达 。 对 于 A 和 了 BB 而 言 ,用 2 
比特 表示 序号 CONN mod 4) 是 否 足 以 检测 并 重 发 任何 丢失 的 分 组 ? 用 1 比特 序号 是 否 足 够 ? 
Cc) 现在 假设 链 路 可 以 无 序 地 传递 数据 ， 而 且 有 时 一 个 分 组 会 在 它 后 继 的 分 组 已 到 达 长 达 1 分 钟 以 后 

才 被 传输 。 这 种 情况 下 ， 对 序列 号 的 要 求 有 哪些 改变 ? 


. 假设 主机 A 和 主机 B 由 一 条 链 路 相连 。 主 机 A 以 一 定 的 速率 持续 地 传输 一 个 高 精度 时 钟 中 的 当前 时 


间 ， 其 速度 快 到 可 以 消耗 整个 可 用 带宽 。 主 机 B 读 出 这 些 时 间 值 并 把 它们 写成 它 自己 的 与 主机 A 时 
钟 同步 的 本 地 时 钟 的 时 间 对 。 假 设 链 路 有 如 下 情况 ， 定 性 地 给 出 主机 B 输 出 的 例子 。 

Ca) 高 带宽 ， 高 时 延 ， 低 抖动 。 

Cb) 低 带宽 ， 高 时 延 ， 高 抖动 。 

(c) 高 带宽 ， 低 时 延 ， 低 抖动 ， 偶 尔 丢 失 数据 。 

例如 ， 一 条 无 抖动 链 路 ， 带 宽 高 到 足够 每 隔 一 个 时 钟 脉冲 输出 一 次 ， 一 个 时 钟 周 期 可 能 产生 像 
(0000, 0001), (0002, 0003), (0004, 0005) 这 样 的 结果 。 | 

获取 并 构建 如 书 中 所 示 的 simplex-talk 套 接 字 程 序 实例 。 分 别 在 独立 的 窗口 中 启动 一 个 服务 器 和 一 个 
客户 端 。 当 第 一 个 客户 端 运行 时 ， 再 启动 连接 到 同一 个 服务 器 上 的 10 个 其 他 客户 端 ， 这 些 其 他 客户 
端 很 有 可 能 在 后 台 被 启动 ， 它 们 的 输入 重 定向 来 自 一 个 文件 。 这 10 个 客户 端 会 发 生 什么 情况 ? 它们 
的 connect() 操作 会 失败 、 超 时 还 是 成 功 ? 其 他 的 调用 是 否 会 被 阻塞 ? 现在 让 第 一 个 客户 端 退 出 ， 会 
出 现 什么 情形 ? 将 服务 器 的 MAX PENDING 设置 为 1， 再 试 一 次 。 

修改 simplex-talk 套 接 字 程序 ， 使 其 客户 端 每 次 给 服务 器 发 送 一 行 ， 然 后 服务 器 把 这 一 行 发 送 回 客 户 
wo Pi 〈 和 服务 器 ) 现在 必须 轮流 调用 recv() 和 sendC) 。 

修改 simplex-talk 套 接 字 程 序 ， 使 其 使 用 UDP 而 不 是 TCP 作为 传输 协议 。 你 必须 在 客户 端 和 服务 器 
上 同时 将 SOCK_STREAM 修改 为 SOCK_DGRAM。 然 后 ， 在 服务 器 端 删 除 对 listen() 和 accept() 
的 调用 ， 将 结尾 的 两 个 租 套 循环 用 一 个 单 循环 代 蔡 ， 这 个 单 循环 用 套 接 字 s 调用 recv() 。 最 后 ， 观 察 
当 两 个 UDP 客户 端 同时 连接 到 同一 个 UDP 服务 器 时 会 发 生 什么 情况 ， 并 和 TCP 的 情况 进行 比较 。 
考察 可 以 为 TCP 连接 设置 哪些 不 同 的 选项 和 参数 (在 Unix 下 执行 man tcp) 。 试 验 用 不 同 的 参数 设 
置 ， 观 察 它 们 如 何 影响 TCP 的 性 能 。 

Unix 的 工具 ping 可 以 用 来 找 出 到 各 种 因特网 主机 的 RTT 值 。 阅 读 ping 的 主页 ， 并 使 用 它 找 出 到 新 
汉 西 州 的 www. cs. princeton. edu 以 及 加 利 福 尼 亚 州 的 www. cicso. com 的 RTT。 在 一 天 的 不 同时 间 
里 测量 RTT 的 值 ， 并 比较 结果 。 对 于 这 些 差异 将 如 何 解释 ? | 

可 以 用 Unix 中 的 工具 traceroute 或 Windows 中 相应 的 tracert， 查 看 消息 在 路 由 选择 时 所 经 过 的 路 由 . 
角 序 列 。 用 它 来 查看 从 你 的 站 点 到 某 些 其 他 站 点 的 路 径 。 其 中 的 跳 数 和 由 ping 得 知 的 RTT 时 间 有 何 
关系 ? 跳 数 和 地 理 距 离 有 何 关系 ? | 

用 上 题 中 的 traceroute 画 出 你 所 在 组 织 的 一 些 路 由 器 图 示 (或 证 明 没 有 使 用 路 由 器 )。 
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过 度 地 考虑 未 来 是 错误 的 。 命 运 像 一 串 链 条 ， 一 次 只 能 处 理 其 中 的 一 个 环节 。 
温 斯 顿 。 详 吉尔 





问题 : 连接 到 网 络 


在 第 1 章 中 我 们 看 到 网 络 是 由 节点 间 相 互 连 接 的 链 路 组 成 的 ， 我 们 面临 的 一 个 基本 问 
题 就 是 如 何 把 两 个 节点 连接 在 一 起 。 我 们 也 介绍 了 “ 云 ”的 概念 ， 它 是 一 个 网 络 ， 但 无 需 
考虑 其 内 部 的 复杂 性 。 我 们 也 需要 考虑 一 台 主 机 连接 到 云 的 问题 。 对 于 每 个 因特网 服务 提 
ER CSP) 来 说 ， 当 它 想 把 一 个 新 客户 连接 到 网 络 中 时 ， 需 要 考虑 类 似 的 问题 如 何 把 
多 个 节点 连接 到 ISP 的 云 中 。 | | 

无 论 是 想 要 构造 一 个 只 有 两 个 节点 和 一 条 链 路 的 简单 网 络 ， 还 是 把 第 十 亿 台 主机 连接 
到 现存 的 网 络 (如 因特网 ) 中 ， 我 们 都 需要 考虑 一 些 事情 。 首 先 需 要 连接 物理 介质 。 介 质 
可 以 是 铜 线 、 光 纤 或 者 是 可 以 在 其 中 传输 电磁 信号 〈 如 无 线 电波 ) 的 无 线 介 质 (例如 空气 
或 自由 空间 ) 。 它 可 能 覆盖 一 个 小 的 区 域 〈 如 一 栋 办 公 大 楼 ) ， 或 一 个 大 的 区 域 (如 大 洲 ) 。 
然而 ， 用 一 种 合适 的 介质 连接 两 个 节点 仅仅 是 第 一 步 。 在 节点 能 成 功 地 交换 分 组 之 前 ， 必 
须 先 解决 下 面 五 个 问题 。 

第 一 个 问题 是 对 传送 到 介质 上 的 比特 编码 (encoding)， 使 其 能 被 接收 主机 理解 。 第 
二 个 问题 是 把 在 链 路 上 传输 的 比特 序列 描述 为 完整 的 消息 ， 以 便 传 送 到 端 节 点 ， 这 称 为 组 
m (framing) 问题 ， 而 传 给 端 主机 的 消息 通常 称 为 帧 〈frame)， 有 时 也 叫 分 组 (packet), 
第 三 个 问题 ， 因 为 在 传输 过 程 中 帧 有 时 会 出 错 ， 所 以 有 必要 检测 这 类 差错 并 且 采 取 适 当 的 
行动 ， 这 是 差错 检测 (error detection) 问题 。 尽 管 帧 一 次 又 一 次 地 出 错 ， 但 在 这 种 情况 
下 ， 还 是 要 建立 一 条 看 起 来 可 靠 的 链 路 ， 这 是 第 四 个 问题 。 最 后 一 个 问题 是 在 多 台 主 机 共 
享 一 条 链 路 〈 尤 其 是 无 线 链 路 ) 的 情况 下 ， 必 须 协 调 对 该 条 链 路 的 访问 ， 这 是 介质 访问 控 
制 (media access control) 问题 。 

虽然 编码 、 组 帧 、 差 错 检测 、 可 人 靠 传输 和 介质 访问 控制 这 五 个 问题 可 以 在 理论 上 讨 
论 ， 但 是 它们 是 在 不 同 网 络 技术 中 以 不 同方 式 解 决 的 很 实际 的 问题 。 本 章 在 以 下 三 个 特定 
的 网 络 技术 下 考虑 这 些 问 题 ， 点 到 点 链 路 、 载 波 监 听 多 路 访问 (Carrier Sense Multiple 
Access, CSMA) 网 络 〈 以 太 网 是 其 最 著名 的 例子 ) 和 无 线 网 络 (802.11 是 应 用 最 广泛 的 
标准 ) 。 本 章 的 目的 是 纵览 实用 的 网 络 技术 并 探讨 这 五 个 基本 问题 ， 我 们 将 会 看 到 如 何 把 
各 种 不 同 的 物理 介质 连接 起 来 构造 鲁 棱 性 和 可 扩展 性 俱 佳 的 网 络 。 


2.1 连接 概览 


正如 在 第 1 章 中 所 看 到 的 ， 网 络 由 两 类 硬件 构件 组 成 : 节点 (node) FAK Clink). 
本 章 关注 如 何 构 造 有 用 的 连接 ， 尤 其 是 在 包含 着 数 百 万 连接 的 大 规模 可 靠 网 络 中 ， 

大 规模 网 络 的 操作 者 处 理 的 是 通过 冰箱 大 小 的 路 由 器 所 连接 起 来 的 数 百 或 数 千 公 里 长 
的 链 路 ， 网 络 的 典型 用 户 接 入 链 路 的 方式 大 多 是 将 一 台 计 算 机 连接 到 全 球 因 特 网 。 这 种 连 
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接 可 能 是 在 咖啡 店 中 的 无 线 连 接 (Wi-Fi) ， 也 可 能 是 在 办 公 楼 或 大 学 中 的 以 太 网 连接 。 对 
于 正在 快速 增长 中 的 网 络 用 户 ， 可 能 是 由 电信 公司 或 ISP 提供 的 光纤 连接 ， 也 有 许多 用 户 
在 使 用 铜 缆 连接 。 幸 运 的 是 ， 有 许多 不 同 的 连接 策略 对 于 协议 栈 高 层 来 说 是 可 靠 并 有 用 
的 。 本 章 将 探讨 这 些 策略 。 | 

图 2-1 显示 了 当前 因特网 中 典型 终端 用 户 采用 的 各 种 连接 方式 。 左 边 是 各 种 各 样 的 终 
端 用 户 设备 ， 包 括 移动 电话 、PDA、 计 算 机 等 ， 它 们 通过 各 种 方式 连接 到 因特网 服务 提供 
商 。 其 接 人 方式 可 能 是 上 面 提 到 的 任何 连接 方式 ， 也 可 能 是 其 他 连接 方式 。 在 该 图 中 它们 
采用 同样 的 连接 方式 ， 即 通过 一 条 直线 连接 到 路 由 器 。 同 时 ， 图 中 有 一 些 链 路 把 ISP 内 部 
的 路 由 器 相互 连接 在 一 起 。 图 中 还 有 一 条 链 路 把 ISP 连接 到 “因特网 其 余部 分 ”， 它 包含 
许多 其 他 ISP 及 其 连接 着 的 主机 。 这 些 链 路 虽然 画 得 并 不 漂亮 ， 但 网 络 体系 结构 CGEM 
1. 3 节 中 所 讨论 ) 的 作用 之 一 是 提供 复杂 链 路 的 简单 抽象 。 基 本 思想 就 是 你 的 笔记 本 或 智 
能 手机 不 必 考 虑 它们 被 接 人 了 什么 类 型 的 链 路 ， 唯 一 要 考虑 的 就 是 它 接 人 了 因特网 。 类 似 
地 ， 路 由 器 不 必 考 虑 它 通过 什么 类 型 的 链 路 与 其 他 路 由 器 连接 起 来 ， 只 要 知道 它 在 链 路 上 
发 送 了 一 个 分 组 后 ， 分 组 能 够 按 预期 到 达 链 路 的 另 一 端 。 

网 络 服务 


主机 


sararan, 
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因特网 | 
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init 





路 由 器 


BARER (MDEA BA, Wi-Fi ER eee ) 
图 2-1 因特网 终端 用 户 概 览 


如 何 使 不 同 的 链 路 对 于 终端 用 户 和 路 由 器 来 说 是 一 样 的 呢 ? 关键 是 我 们 必须 处 理 存在 
于 现实 世界 中 的 所 有 物理 约束 和 链 路 缺陷 。 本 章 中 我 们 会 对 这 些 问 题 进 行 概 述 。 首 要 的 问 . 
题 是 链 路 是 能 够 传输 信号 〈 例 如 无 线 电 波 或 其 他 类 型 的 电磁 波 ) 的 物理 介质 ， 但 我 们 实际 
需要 发 送 的 是 比特 。 本 章 后 面 会 介绍 如 何 对 比特 进行 编码 以 便 在 物理 介质 中 传输 ， 接 下 来 
会 介绍 上 面 提 到 的 其 他 问题 。 本 章 最 后 会 介绍 如 何在 各 种 链 路 上 发 送 完整 的 分 组 ， 而 不 考 
奈 其 采用 的 物理 介质 。 | 





链 路 容量 和 香农 定理 

在 信号 处 理 和 信息 论 的 相关 领域 中 ， 研 究 者 们 已 做 了 许多 工作 ， 其 中 包括 在 经 过 一 段 
距离 后 信号 如 何 衰减 ， 以 及 一 个 给 定 的 信号 能 有 效 地 运载 多 少数 据 等 。 这 一 领域 中 最 著名 
的 工作 是 一 个 称 为 香农 - 哈 特 雷 定理 (Shannon-Hartley theorem)S 的 公式 。 简 单 地 说 ， 
香农 定理 以 每 秒 比 特 (bps) 的 形式 给 出 一 条 链 路 容量 的 上 限 ， 表 示 为 链 路 信 噪 比 的 函数 ， 


O 有 时 简称 香农 定理 ， 但 实际 上 香农 提出 了 相当 多 的 定理 。 
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用 分 贝 (dB) 上 度量。 其 中 涉及 的 信道 带宽 用 赫兹 (Hz) 度量 。( 正 如 先前 提 到 的 ， 带 宽 是 
通信 的 负载 量 ， 这 里 指 的 是 通信 中 可 用 的 频率 范围 。) 

例如 ， 我 们 使 用 香农 定理 来 确定 调制 解 调 器 的 信息 传输 速率 ， 当 调制 解 调 器 以 这 个 速 
率 在 一 个 音频 电话 线 上 传输 二 进 制 数据 时 ， 不 会 出 现 过 高 的 差错 率 。 标 准 音频 电话 线 支持 
的 典型 频率 范围 为 300~3 300Hz， 信 道 带 宽 是 3kHz。 

香农 定理 通常 由 下 面 的 公式 给 出 : 

C= Blogz (1+ S/N) 
其 中 C 是 可 达到 的 信道 容量 ， 单 位 为 bps,，B 是 用 Hz 表示 的 信道 带宽 (3 300Hz—300Hz= 
3 000Hz)，S 是 信号 的 平均 功率 ，N 是 咖 声 的 平均 功率 。 信 品 比 (S/N, R SNR) 通常 
用 dB 表示， 计算 公式 如 下 : 

SNR= 10 X logio (S/N) 
假设 一 个 典型 的 信 噪 比 为 30dB， 这 表示 S/N 二 1 000。 因 此 我 们 有 

C=3 000 X log, (1001) 
近似 等 于 30kbps. 

在 20 世纪 90 FR, 调制解调器 是 接 入 因特网 的 主要 方式 ， 其 标准 容量 是 56kbps CR 
号 的 上 限 )。 然 而 在 实践 中 ， 调 制 解 调 器 能 够 达到 的 速率 要 低 一 些 ， 因 为 并 不 总 是 有 足够 
高 的 信 品 比 使 其 能 够 达到 56kbps。 

香农 定理 可 以 应 用 于 各 种 链 路 ， 包 括 无 线 链 路 、 同 轴 电 缆 和 光纤 等 。 显 然 构 建 高 容量 
的 链 路 只 有 两 种 方法 ， 提 高 带宽 或 提高 信 品 比 ， 或 者 同时 提高 带宽 和 信 噪 比 。 有 人 希望 通 
过 设计 编码 方法 来 使 传输 速率 达到 信道 的 理论 上 限 值 ， 但 这 也 无 法 保证 高 容量 的 链 路 。 这 
种 想法 在 今天 的 无 线 链 路 中 特别 明显 ， 依 托 给 定 的 无 线 频 谱 (信道 带宽 ) 和 信号 功率 
(SNR) 以 求 获得 更 高 的 信息 传输 速率 。 





本 书 的 大 部 分 读者 已 经 遇 到 了 一 些 不 同类 型 的 链 路 ， 这 有 助 于 理解 现 有 的 不 同类 型 的 
链 路 及 其 属性 。 所 有 链 路 都 依赖 于 通过 介质 或 自由 空间 传播 的 电磁 波 。 链 路 分 类 的 方法 之 
一 就 是 依据 其 所 采用 的 介质 来 划分 ， 上 典型 的 有 铜 线 ， 如 数字 用 户 线 (DSL) 和 同 轴 电 缆 ， 
还 有 光纤 ， 如 商业 型 光纤 到 户 服 务 和 因特网 骨干 网 中 的 长 距离 链 路 ， 以 及 用 户 无 线 网 络 介 
质 空气 或 目 由 空间 。 i 

链 路 的 另 一 个 重要 属性 是 频率 Cfrequency), UR (Hz) 作为 测量 单位 ， 反 映 了 电 
磁 波 的 摆动 情况 。 波 的 一 对 相 邻 最 高 点 或 最 低 点 之 间 的 距离 称 为 波长 (wavelength)， 单 
MAK (m)。 由 于 所 有 电磁 波 均 以 光速 传播 (具体 速度 依赖 于 介质 )， 所 以 该 速度 除 以 波 
的 频率 就 等 于 它 的 波长 。 我 们 已 经 看 到 音频 电话 线 的 例子 ， 它 在 300~3 300Hz 的 范围 内 
传送 连续 的 电磁 信和 号， 一 个 300Hz 的 波 通过 铜 线 传播 的 波长 为 | 

Speed Of Light In Copper+Frequency= 2/3 X 3 X108 + 300=667 X 10° m 

通常 ， 电 磁 波 横 跨 一 个 很 宽 的 频率 范围 ， 从 无 线 电 波 到 红外 线 到 可 见 光 到 和 X 射线 和 伽 马 射 
线 。 图 2-2 描绘 了 电磁 波 的 频谱 ， 并 说 明了 何 种 介质 用 于 传送 哪 一 频段 。 

迄今 为 止 ， 我 们 了 解 到 一 条 链 路 就 是 用 来 传送 电磁 波 信 号 的 介质 。 这 种 链 路 为 传输 各 
种 信息 提供 了 基础 ， 包 括 传输 中 我 们 感 兴趣 的 数据 类 型 ， 即 二 进 制 数据 (1 和 0)。 我 们 称 
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图 2-2 电磁 波 频谱 


二 进 制 数据 被 编码 Cencoded) 到 信号 中 。 把 二 进 制 数 据 编 码 成 电磁 波 信 号 是 一 个 复杂 的 
问题 为 了 使 问题 更 加 易于 处 理 ， 我 们 可 以 把 它 分 成 两 层 来 考虑 。 下 层 涉及 调制 (modu- 
lation) ， 即 通过 改变 信和 号 的 频率 、 振 幅 或 相位 来 实现 信息 的 传输 。 调 制 的 一 个 简单 例子 是 
改变 单一 波长 的 振幅 。 在 直观 上 这 相当 于 开 灯 和 关 灯 。 由 于 在 讨论 链 路 作为 计算 机 网 络 构 
件 时 调制 问题 是 次 要 的 ， 我们 只 假设 有 可 能 传输 一 对 可 区 别 的 信号 一 一 把 它们 想象 成 
“高 ”信号 和 “ 低 ” 信 号 ， 所 以 我 们 只 考虑 上 层 ， 即 只 关心 将 二 进 制 数 据 编 码 成 这 两 种 信 
号 的 问题 。2. 2 节 将 讨论 这 样 的 编码 问题 。 

对 链 路 进行 分 类 的 另 一 种 方法 是 依据 其 使 用 方式 ， 不 同 的 经 济 考虑 和 部 署 方式 都 会 影 
响 链 路 类 型 ， 大 部 分 消费 者 可 能 会 通过 无 线 网 络 〈 在 咖啡 店 、 机 场 、 大 学 等 区 域 ) 与 因 
特 网 进行 交互 ， 也 可 能 会 通过 因特网 服务 提供 商 提供 的 所 谓 “ 最 后 一 英里 ”的 链 路 ， 正 如 
图 2-1 中 所 描述 的 一 样 。 表 2-1 总 结 了 这 些 链 


路 类 型 。 选 取 这 些 类 型 作为 代表 是 因为 它们 对 R21 家庭 接 入 的 基本 服务 方式 


于 数 百 万 用 户 而 言 都 是 性 价 比 较 高 的 。 例 如 — 7—7 — oe 
DSL 依托 于 现 有 的 双 绞 线 ， 而 这 些 双 绞 线 在 普 0 ere 
及 的 传统 电话 服务 中 已 经 措 建 完成 。 对 于 建造 “一 aa o F 


一 个 完整 的 网 络 来 说 ， 这 些 技术 大 多 无 法 胜 Chay Game) TO 
任 ， 例 如 在 大 型 网 络 中 通过 长 距离 高 速 链 路 来 “FTTH AAN) 50Mbps~1Gbps 
ee ee al, ee eee 

过 去 20 年 中 ， 在 长 上 距离 链 路 中 使 用 的 同 轴 电 缆 目 前 几乎 无 一 例外 地 被 光纤 所 取代 ， 
这 些 链 路 使 用 了 一 种 称 为 SONET (同步 光学 网 络 ) 的 技术 ， 该 技术 可 以 满足 电信 传输 的 
需求 ，2. 3. 3 节 将 会 更 详细 地 介绍 SONET, 

最 后 ， 除 了 最 后 一 英里 和 骨干 网 链 路 外 ， 在 一 个 建筑 物 或 一 aie eeu 
方式 是 局 域 网 CLAN) 。 正 如 2.6 节 中 所 介绍 的 ， 以 太 网 在 这 一 领域 占有 统治 地 位 ， 已 经 
取代 了 先前 的 令 牌 环 技术 。 以 太 网 经 久 不 训 ， 目 前 与 基于 802. 11 标准 的 无 线 技术 并 驾 齐 
驱 ，2.7 节 将 会 进一步 介绍 无 线 技术 。 


这 里 关于 链 路 类 型 的 概述 虽然 并 不 全 面 ， 却 也 揭示 了 现 有 链 路 类 型 的 基本 方法 及 链 路 


类 型 的 多 样 性 。 在 下 节 中 ， 我 们 将 会 看 到 网 络 协议 利用 这 种 多 样 性 展现 高 层 的 一 致 性 ， 而 
无 需 考 虑 低层 的 复杂 性 细节 。 
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2.2 编码 (NRZ, NRZI, SHE. 4B/5B) 


将 节点 和 链 路 变 成 可 用 构件 的 第 一 步 ， 是 清楚 它们 如 何 连接 ， 以 使 比特 从 一 一 个 节点 传 
输 到 另 一 个 节点 。 正 如 在 前 一 节 中 提 到 的 ， 信 号 是 在 物理 链 路 上 传播 的 。 因 此 ， 我 们 的 任 
务 是 将 源 节 点 准备 发 送 的 二 进 制 数据 编码 为 链 路 能 够 传送 的 信号 ， 然 后 在 接收 节点 将 信和 号 
解码 成 相应 的 二 进 制 数据 。 我 们 忽略 调制 的 细节 并 假设 处 理 两 种 离散 信号 ， 即 高 信号 电 平 
和 低 电 平 。 实 际 上 ， 这 些 信号 可 Be a de Ei HR Se EB 
不 同 能 量 级 | | 

正如 之 前 已 提 到 的 ， 本 章 讨论 的 大 部 分 功能 是 由 网 络 适配器 (network adaptor) 完成 
的 ， 它 是 一 个 将 节点 连接 到 链 路 上 的 硬件 。 网 络 适配器 包括 一 个 信 令 构件 ， 它 在 发 送 节点 
把 比特 编码 为 信号 ， 而 在 接收 节点 将 信号 解码 为 比特 。 因 此 ， 如 图 2-3 所 示 ， 信 和 号 在 两 个 
信 令 构件 之 间 的 链 路 上 传输 ， 而 比特 在 两 个 网 络 适 配器 之 间 流 动 。 | 





图 2-3 ASEAS lal feta, BRR TERE Bc ae Zl it Bh 


回 到 将 比特 编码 为 信号 的 问题 。 显 然 ， 要 做 的 就 是 将 数值 1 映射 为 高 电 平 ， 数 信 0 BR 
射 为 低 电 平 。 这 是 一 种 称 为 不 归 零 (Non-Return to Zero, NRZ) 的 编码 方案 所 采用 的 映 
射 。 例 如 ， 图 2-4 以 图 解 方 式 描 述 了 一 个 特定 的 比特 序列 (图 的 上 部 ) 及 其 对 应 的 NRZ 
编码 信号 (图 的 下 部 )。 
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图 2-4 一 个 比特 流 的 NRZ 编码 


NRZ 的 问题 是 ， 几 个 连续 的 1 表示 在 一 段 时 间 内 信号 在 链 路 上 保持 为 高 电 平 ， 类 似 
地 ， 几 个 连续 0 表示 信号 在 一 段 时 间 内 保持 为 低 电 平 。 一 长 串 0 和 1 导致 两 个 基本 问题 。 
第 一 个 问题 是 ， 它 会 导致 基线 漂移 (baseline wander) 状态 。 尤 其 是 接收 方 保 持 一 个 它 所 
看 到 的 信号 平均 值 ， 然 后 用 这 个 平均 值 区 分 高 、 低 电 平 。 当 收 到 的 信号 远 低 于 这 个 平均 值 
时 ， 接 收 方 就 断定 看 到 了 0， 同 样 ， 远 高 于 这 个 平均 值 的 信号 被 认为 是 1。 当然 ， 问 题 是 
太 多 连续 的 1 或 0 会 使 这 个 平均 值 发 生 改 变 ， 使 得 检测 信号 中 很 难 出 现 明 显 的 变化 。 

第 二 个 问题 是 ， 由 高 到 低 和 由 低 到 高 的 频繁 转换 必须 使 用 时 钟 恢复 (clock recovery), 
直观 地 讲 ， 时 钟 恢复 问题 就 是 ;编码 和 解码 过 程 都 由 一 个 时 钟 来 驱动 ， 每 个 时 钟 周期 发 送 
方 发 送 1 比特 ， 接 收 方 恢 复 1 比特 。 为 了 使 接收 方 能 恢复 发 送 方 发 送 的 比特 ， 发 送 方 和 接 
收 方 的 时 钟 必须 精确 同步 。 如 果 接 收 方 时 钟 比 发 送 方 时 钟 稍 快 或 稍 慢 ， 那么， 接收 方 就 不 
能 正确 地 解码 信号 。 可 以 采用 在 另 一 条 线 上 发 送 时 钟 给 接收 方 的 方法 ， 但 这 种 方案 不 太 可 
行 ， 因 为 这 使 布线 费用 增加 一 倍 ， 所 以 接收 方 改 由 收 到 的 信号 得 到 时 钟 ， 这 就 是 时 钟 恢 复 
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过 程 。 无 论 何 时 ， 只 要 信号 有 从 1 到 0 或 从 0 到 1 的 跳 变 ， 接 收 方 就 知道 这 是 在 时 钟 周 期 
的 边界 上 ， 它 能 够 自己 进行 重新 同步 。 然 而 ， 大 长 时 间 没 有 这 样 的 跳 变 就 会 导致 时 钟 漂 
移 。 所 以 ,无论 传送 什么 数据 ， 时 钟 恢复 都 依赖 于 信号 内 有 许多 跳 变 。 

有 一 种 方法 可 以 解决 这 个 问题 ， 称 为 不 归 零 反 转 (Non- Return to Zero Inverted, 
NRZI) ， 发 送 方 将 当前 信号 的 跳 变 编码 为 1]， 将 当前 信号 的 保持 编码 为 0。 这 样 就 解决 了 
连续 1 的 问题 ,但 是 显然 未 解决 连续 0 的 问题 。NRZI 如 图 2-5 所 示 。 还 有 一 种 方法 称 为 
曼彻斯特 编码 (Manchester encoding)， 这 种 颇具 独创 性 的 方法 通过 传输 NRZ 编码 数据 与 
时 钟 的 蜡 或 值 使 时 钟 与 信号 结合 在 一 起 。( 把 本 地 时 钟 看 作 一 个 从 低 到 高 变化 的 内 部 信号 ， 
一 对 低 / 高 变化 的 电 平 看 作 一 个 时 钟 周 期 。) 图 2-5 haa Sy Swe. ER, BOP 
和 寺 编码 将 0 作为 由 低 到 高 的 跳 变 ，1 作为 由 高 到 低 的 跳 变 。 因 为 0 和 1 都 导致 信号 的 跳 变 ， 
所 以 接收 方 能 有 将 地 恢复 时 钟 。( 还 有 一 种 曼彻斯特 编码 的 变种 ， 称 为 差分 受 彻 斯 特 〈dif- 
ferential Manchester) 编码 。 其 方法 是 若 信和 号 的 前 一 半 与 前 一 比特 信号 的 后 一 半 信 和 号 相等 
则 编码 为 1， 若 信和 号 的 前 一 半 与 前 一 比特 信号 的 后 一 半 信 和 号 相反 则 编码 为 0。) 
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图 2-5 不 同 的 编码 策略 


曼彻斯特 编码 方案 存在 的 问题 是 使 链 路 上 信号 跳 变 的 速率 加 倍 ， 这 意味 着 接收 方 有 一 
半 的 时 间 在 检测 信号 的 每 一 个 脉冲 。 信 和 号 变化 的 速率 称 为 链 路 的 波 特 率 〈baud rate) 。 在 
曼彻斯特 编码 中 ， 比 特 率 是 波 特 率 的 一 半 ， 所 以 认为 编码 的 效率 仅 为 50%。 记 住 ， 如 果 接 
收 方 保持 比 图 2-5 中 的 曼彻斯特 编码 要 求 的 更 快 的 波 特 率 ， 那 么 在 相同 的 时 间 段 中 ，NRZ 
和 NRZI 能 传输 2 倍 的 比特 数 。 | 

我 们 考虑 的 最 后 一 种 编码 方法 称 为 4B/5B， 它 力求 不 扩大 表 2-2 4B/5B 编码 
高 信号 或 低 信 号 的 持续 期 而 解决 曼彻斯特 编码 的 低 效 问题 。4B/ _《 比 特 数据 符号 | 5 比特 编码 _ 


5B 的 思想 是 在 比特 流 中 插入 额外 的 比特 以 打破 一 连 捉 的 0 或 1。 
准确 地 讲 ， 就 是 用 5 个 比特 来 编码 4 个 比特 的 数据 ， 之 后 再 传 0010 10100 
给 接收 方 ， 因 此 称 为 4B/5B。5 比特 代码 是 由 以 下 方式 选 定 的 ; 站 ond 
每 个 代码 最 多 有 1 个 前 导 0， 并 且 末 端 最 多 有 两 个 0。 因 此 ， 当 0101 01011 
连续 传送 时 ， 在 传输 过 程 中 任何 一 对 5 比特 代码 连续 的 0 最 多 Tr tan 
有 3 个 。 然 后 ， 再 将 得 到 的 5 比特 代码 使 用 NRZI 编码 传输 ， 这 1000 10010 
种 方式 说 明了 为 什么 仅 需 关 心 多 个 连续 0 的 处 理 ， 因 为 NRZI 已 a 
ERT ZTE 1 的 问题 。 注 意 ，4B/5B 编码 的 效率 为 80% 。 1011 10111 

表 2-2 给 出 了 16 个 可 能 的 4 比特 数据 符号 对 应 的 5 比特 ”一 一 — 
代码 。 注 意 ， 由 于 5 比特 足以 编码 32 个 不 同 的 代码 ， 因 此 我 1110 。 11100 


们 仅 用 了 16 个 ， 剩 下 的 16 个 可 用 于 其 他 目的 。 其 中 , 11111 .iu | 1mo 
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可 用 于 表示 线路 空闲 ， 00000 表示 线路 不 通 ，00100 表示 停止。 在 剩 下 的 13 个 码 中 ，7 个 
ae (因为 它们 违反 了 1 个 前 导 、0 或 两 个 末尾 0 的 规则 ) ， 另 外 6 个 代表 各 种 控制 符 
。 在 本 章 后 面 将 会 看 到 ， 某 些 组 帧 协议 会 使 用 这 些 控制 符号 。 


2.3 组 帧 


我 们 已 经 看 到 在 一 个 点 到 点 链 路 〈 从 一 个 适配器 到 另 一 个 适配器 ) 上 如 何 传输 比特 序 
列 ， 现 在 考虑 图 2-6 中 的 情形 。 回 顾 一 下 第 1 章 ， 我 们 关注 的 是 分 组 交换 网 ， 即 在 节点 间 
交换 的 是 数据 块 〈 在 这 一 层 称 为 帧 〈frame)) 而 不 是 比特 流 。 网 络 适配器 使 节点 间 能 够 交 
换 帧 。 当 节点 A 希望 向 节点 B 传送 一 帧 时 ， 它 告诉 自己 的 适配器 从 节点 的 内 存 中 传送 一 
帧 ， 这 导致 一 个 比特 序列 传 到 链 路 上 。 然 后 ， 节 点 B 的 适配器 收集 链 路 上 到 达 的 比特 序 
列 ， 并 在 B 的 内 存 中 存放 相应 的 帧 。 准 确 识别 什么 样 的 比特 集合 构成 一 帧 ， 即 决定 帧 从 哪 
里 开始 到 哪里 结束 ， 是 适配器 面临 的 主要 挑战 。 
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图 2-6 适配器 之 间 的 比特 流 ， 主 机 之 间 的 帧 


解决 组 帧 问题 有 几 种 方法 。 本 节 从 设计 的 角度 使 用 不 同 的 协议 来 说 明 各 种 方法 。 注 
， 尽 管 我 们 是 在 点 到 点 链 路 的 环境 中 讨论 组 帜 问题， 但 在 多 路 访问 网 (如 以 太 网 和 令 牌 
| ocak sae 


2.3.1 面向 字 节 的 协议 (BISYNC, PPP, DDCMP) 


最 早 的 组 帧 方法 是 把 每 一 帧 看 成 一 个 字 节 (字符) 集 ， 而 不 是 一 个 比特 集 ， 这 种 方法 
源 于 终端 与 大 型 机 的 连接 。 面 向 字 节 (byte-oriented) 方法 的 实例 有 : 20 世纪 60 FRR 
IBM 开发 的 二 进 制 同步 通信 (Binary Synchronous Communication, BISYNC) 协议 ， 以 
及 用 于 数字 设备 公司 DECNET 网 络 上 的 数字 数据 通信 消息 协议 (Digital Data Communi- 
cation Message Protocol，DDCMP) 。 近 来 广泛 使 用 的 点 对 点 协议 (PPP) 则 是 这 种 方法 
的 另 一 个 实例 。 

1. 起 止 标记 法 

BISYNC 协议 用 起 止 标记 法 组 帧 ， 图 2-7 表示 这 个 协议 的 帧 格式 。 本 书 此 后 将 用 这 样 
的 图 来 表示 帧 或 分 组 格式 ， 所 以 此 处 稍 加 解释 。 我 们 将 一 个 分 组 表示 为 一 个 带 标记 的 字段 
序列 ， 每 个 字段 上 方 的 数字 表示 字段 所 三 的 比特 长 度 。 注意 ， 分 组 是 从 最 左 端 的 字段 开始 
传输 的 。 





图 2-7 BISYNC 帧 格式 


2 HLH 


BISYNC 使 用 称 为 起 止 字符 (sentinel character) 的 特定 字符 表示 帧 的 开始 与 结束 。 
一 帧 的 开始 由 发 送 一 个 特定 的 SYN (同步 ) 字符 表示 。 其 后 帧 的 数据 部 分 包含 在 两 个 特 
殊 的 起 止 字符 之 间 : STX (正文 开始 符 ) 和 ETX (正文 结束 符 )。SOH (首部 开始 符 〉 字 
段 与 STX 字段 的 目的 是 一 样 的 。 自 然 ， 起 止 标记 法 存在 的 问题 是 ETX 字符 可 能 会 出 现在 
帧 的 数据 部 分 。BISYNC 通过 对 ETX 字符 “ 转 义 ”的 方法 解决 这 个 问题 ， 无 论 ETX 出 现 
在 帧 体 中 什么 位 置 ， 都 在 其 前 加 上 一 个 DLE (数据 链 路 转 义 ) 字符 ， 帧 体 中 的 DLE 字符 
也 采用 同样 的 方法 〔 在 其 前 多 加 一 个 DLE) 处 理 。(C 程序 员 可 能 注意 到 ， 这 类 似 于 当 引 
号 出 现在 一 个 字符 串 中 时 用 反 斜 线 转 义 的 处 理 方法 。) 因 为 要 在 帧 的 数据 部 分 插入 额外 的 
字符 ， 所 以 这 种 方法 常 称 为 字符 填充 法 (character stuffing). 

帧 格式 还 包括 一 个 用 于 检验 传输 差错 的 字段 ， 标 记 为 CRC (循环 元 余 校 验 )，2.4 节 
会 给 出 各 种 差错 检测 算法 。 最 后 ， 帧 中 包括 附加 的 Header (首部 ) 字段 ， 用 于 链 路 层 可 
靠 传输 算法 ，2. 5 节 会 给 出 这 些 算法 的 例子 。 | 

最 近 PPP 通常 用 于 在 各 种 点 对 点 链 路 上 传输 IP 分 组 ， 并 且 同 BISYNC 一 样 使 用 起 止 
字符 填充 法 。 图 2- 8 给 出 PPP 的 帧 格式 。 特 殊 的 正文 起 始 字符 STX 在 图 2-8 中 表示 为 
Flag (标志 )〉 字段 ， 其 值 为 01111110。Address (地 址 ) 和 Control (控制 ) 字段 通常 取 默 
认 值 ， 所 以 不 用 理会 。Protocol (协议 ) 字段 用 于 多 路 分 解 : 它 标 识 高 层 协议 ， 如 IP 3 IPX 
(— Novell 公司 开发 的 类 似 IP ADO. WAJ Payload CA sak) 长 度 是 可 以 协商 的 ， 
但 它 的 默认 值 是 1 500 FH. Checksum REM 字段 的 长 度 是 2 ARAW 47. 
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图 2-8 PPP 帧 格式 


PPP 帧 格式 中 有 几 个 字段 长 度 是 可 以 协商 而 不 是 固定 的 ， 这 种 协商 由 链 路 控制 协议 
(Link Control Protocol, LCP) 管理 。PPP 和 LCP 协同 工作 : LCP 发 送 封 装 在 PPP ih 
的 控制 消息 ， 该 消息 由 PPP 的 Protocol 字段 中 的 一 个 LCP 标识 符 表示 ， 然 后 返回 并 根据 
包含 在 控制 消息 中 的 信息 来 改变 PPP 的 帧 格式 。 当 两 端的 对 等 实体 都 检测 到 载波 信号 时 
(例如 ， 当 光 接 收 器 检测 到 所 连接 的 光纤 上 有 发 来 的 信号 时 )， 在 它们 之 间 建 立 一 条 链 路 的 
过 程 也 会 用 到 LCP. 

2. 字 节 计数 法 | | 

正如 每 一 位 计算 机 科学 专业 的 学 生 所 知道 的 ， 可 以 代替 起 止 标记 值 检测 文件 结束 的 另 
一 种 方法 是 在 文件 开始 处 包含 文件 中 的 项 目 个 数 。 组 帧 也 是 如 此 ， 包 含 在 帧 中 的 字 节 数 可 
放 在 帧 首部 的 一 个 字段 中 。DECNET 网 络 的 DDCMP 协议 就 是 采用 这 种 方法 ， 如 图 2-9 
所 示 。 在 这 个 例子 中 ，Count GEO 字段 指明 在 帧 体 中 包含 多 少 字 节 。 





图 2-9 DDCMP 帧 格式 


这 种 方法 的 危险 是 ， 传 输 差错 可 能 破坏 计数 字段 ， 在 这 种 情况 下 ， 将 不 能 正确 检测 到 
目的 结束 。( 如 果 ETX 字段 被 破坏 ， 类 似 的 问题 也 存在 于 起止 标记 法 中 .) 假如 发 生 此 类 
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差错 ， 接 收 方 就 会 累计 错误 的 Count 字段 所 指示 的 字 节 数 ， 然 后 使 用 差错 检测 字段 确定 帧 
出 错 了 。 我 们 有 时 将 这 种 情况 称 为 组 帧 差错 (framing error)。 然 后 接收 方 将 等 待 ， 直 到 
看 到 下 一 个 SYN 字符 ， 便 会 开始 收集 组 成 下 一 帧 的 字 节 。 因 此 ， 组 帧 差错 可 能 引起 多 个 
Ja BE Mt EA) FS Be BEM , | 3 


2.3.2 面向 比特 的 协议 (HDLC) 


与 面向 字 节 的 协议 不 同 ， 面 向 比特 的 协议 不 关心 字 节 的 边界 ， 它 只 把 帧 看 成 比特 的 
集合 。 这 些 比 特 可 能 来 自 某 个 字符 集 ， 如 ASCH 码 ， 它 们 可 能 是 一 幅 图 像 中 的 像素 值 或 
一 个 可 执行 文件 的 指令 和 操作 数 。 由 IBM 开发 的 同步 数据 链 路 控制 (Synchronous Data 
Link Control, SDLC) 协议 就 是 一 个 面向 比特 的 协议 ， 后 来 由 OSI 将 它 标准 化 为 高 级 数据 
链 路 控制 (High-Level Data Link Control, 

HDLC) 协议 。 在 下 面 的 讨论 中 ， 我 们 将 | 开始 序列 | 首部 
HDLC 作为 一 个 例子 ， 它 的 帧 格式 如 图 2-10 “一 一 
poe. 图 2-10 HDLC Wipe st | 

HDLC 用 特定 的 比特 序列 01111110 表示 帧 的 开始 与 结束 。 在 链 路 空闲 时 也 发 送 这 个 序 
列 ， 以 保证 发 送 方 和 接收 方 的 时 钟 同步 。 这 样 ， 双 方 的 协议 本 质 上 都 使 用 起 止 标 记 法 。 因 为 
这 个 序列 可 能 出 现在 帧 体 中 的 任何 位 置 (事实 上 ， 比 特 序列 01111110 可 以 跨 字 节 边界 )， 所 
以 面向 比特 的 协议 使 用 类 似 于 DLE 字符 的 方法 ， 这 种 方法 称 为 比特 填充 法 bit stuffing), 

在 HDLC 协议 中 ， 比 特 填充 过 程 如 下 。 在 发 送 方 ， 任 意 时 刻 从 消息 体 中 发 出 5 个 连 
续 的 1 后 (发送 方 试图 发 送 特别 序列 01111110 除外 )， 发 送 方 在 发 送 下 一 比特 之 前 插入 一 
个 0。 在 接收 方 ， 如 果 5 个 连续 的 1 到 达 了 ， 接 收 方 根据 它 看 到 的 下 一 比特 ( 即 5 个 1 后 
面 的 比特 ) 做 出 决定 。 如 果 下 一 比特 为 0， 则 一 定 是 填充 的 ， 接 收 方 就 把 它 去 掉 ， 如果 下 
一 比特 是 1， 则 有 两 种 情况 ， 即 帧 结束 标记 或 是 比特 流 中 出 现 差 错 。 通 过 查看 下 一 (next) 
比特 ， 接 收 方 可 以 区 别 这 两 种 情形 ， 如果 看 到 0 〈 即 最 后 8 比特 为 01111110)， 那 么 它 一 
定 是 帧 结束 标记 如 果 看 到 1 ( 即 最 后 的 8 比特 为 01111111)， 则 一 定 是 出 错 了 ， 需 要 丢 
弃 整 个 帧 。 在 后 一 种 情形 中 ， 接 收 方 必 须 等 到 下 一 个 01111110 出 现 才能 再 一 次 开始 接收 
数据 ， 结 果 ， 接 收 方 有 可 能 连续 两 次 接收 帧 失败 。 显 然 ， 仍 存在 组 帧 差错 未 被 检测 出 来 的 
情形 ， 例 如 ， 可 能 由 于 差错 而 产生 假 的 帧 结束 模式 ， 但 这 种 差错 相对 而 言 不 大 可 能 。 我 们 
将 在 2.4 节 讨 论 健壮 的 检 错 方式 。 

比特 填充 法 和 字符 填充 法 都 有 一 个 有 趣 的 特性 : 一 个 帧 的 长 度 由 帧 的 有 效 载荷 中 传送 
的 数据 决定 。 事 实 上 ， 如 果 在 任何 帧 中 携带 的 数据 是 任意 的 ， 所 有 的 帧 就 不 可 能 同样 大 。 
(为 了 使 人 信服 ， 考 虑 如 果 一 个 帧 体 的 最 后 字 节 是 ETX 字符 将 会 出 现 什么 情况 .) 确保 所 
有 帧 为 同样 大 小 的 组 帧 形式 在 下 一 小 节 讨论 。 | | 











层 中 包含 什么 ? | 
第 1 章 提 到 的 OSI 参考 模型 的 一 个 重要 贡献 在 于 ， 它 提供 了 对 协议 (特别 是 协议 层 ) 
进行 讨论 的 一 些 术 语 。 这 些 术 语 引 起 了 很 多 和 争议， 例如， “你 的 协议 把 功能 和 放 在 立 层 ， 
而 OSI 参考 模型 说 明 这 个 功能 应 放 在 Z 层 一 一 这 是 分 层 违 例 。” 事实 上 ， 为 执行 给 定 的 功 
能 而 给 出 正确 的 层 是 非常 困难 的 ， 而 且 其 理由 通常 比 “OSI 模型 怎么 说 ”还 难以 说 清 。 这 
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就 是 本 书 避 免 严格 分 层 方法 的 部 分 理由 。 本 书 的 做 法 是 展示 许多 需要 由 协议 执行 的 功能 ， 
并 考察 已 经 成 功 实现 它 们 的 一 些 方法 。 

尽管 我 们 不 采用 分 层 方法 ， 但 有 时 我 们 需要 方便 的 方式 来 讨论 协议 类 ， 用 协议 在 其 上 进 
行 操 作 的 层 的 名 称 是 最 好 的 选择 。 例 如 ， 本 章 主要 关心 链 路 层 协议 。(2. 2 节 描 述 的 比特 编码 
是 一 个 例外 ， 它 被 认为 是 物理 层 功能 。) 链 路 层 协 议 可 通过 它们 是 否 运行 在 单一 链 路 上 来 识 
别 (本章 讨 论 的 网 络 类 型 就 是 单一 链 路 )。 对 比 之 下 ， 网 络 层 协议 运行 在 交换 网 上 ， 其 中 包 
含 许多 由 交换 机 或 路 由 器 互联 起 来 的 链 路 。 第 3 章 和 和 第 4 章 将 讨论 网 络 层 协 议 的 相关 主题 。 

注意 ， 当 谈 及 协议 类 和 把 建 网 的 问题 划分 为 可 管理 的 子 任务 时 ， 协 议 层 是 有 有 几 的 ， 因 
为 它们 提供 了 有 助 于 讨论 的 方法 。 然 而 ， 这 并 不 意味 着 过 分 的 限制 : 事实 是 分 层 违例 不 会 
使 是 否 值得 分 层 的 争论 停止 。 换 名 话 说 ， 分 层 可 以 做 一 个 好 仆人 ， 而 不 是 一 个 可 怜 的 主 
人 。 在 第 6 章 讨论 拥塞 控制 时 ， 又 会 出 现 某 一 功能 最 好 放 在 哪 一 层 的 有 趣 和 争论 。 


2.3.3 基于 时 钟 的 组 帧 (SONET) 


oF MASS 3 种 方法 以 同步 光纤 网 络 (Synchronous Optical Network, SONET) 标准 | 
为 例 。 由 于 没有 广 为 接 受 的 通用 术语 ， 我们 简单 地 将 这 种 方法 称 为 基于 时 钟 的 组 帧 
(clock-based framing), SONET 最 初 是 由 贝尔 通信 研究 室 提出 的 ， 然 后 由 美国 国家 标准 协 
会 (ANSD 开发 用 于 在 光纤 上 传输 数字 数据 ， 此 后 被 ITU-T 采纳。 但 是 谁 进行 标准 化 、 
标准 化 什么 以 及 何 时 标准 化 并 不 是 我 们 关心 的 问题 。 关 于 SONET 应 该 记 住 的 是 ， 它 是 在 
光 网 络 上 远 距 离 传输 数据 的 主要 标准 。 

在 深入 研究 SONET 之 前 需要 了 解 的 一 件 重要 的 事情 是 ，SONET 的 全 部 规范 比 本 书 
还 厚 。 因 此 ， 下 面 的 讨论 只 能 涉及 这 一 标准 的 关键 点 。SONET 同样 也 解决 组 帧 问题 和 编 
码 问题 。 它 还 解决 了 一 个 对 电话 公司 来 说 非常 重要 的 问题 : 几 条 低速 链 路 多 路 复 用 到 一 条 
高 速 链 路 。 我 们 首先 讨论 组 帧 ， 然 后 讨论 其 他 问题 。 

正如 以 前 讨论 的 组 帧 方案 ， 一 个 SONET 帧 包含 一 些 特 殊 的 信息 ， 告 诉 接收 方 哪 里 是 
帧 的 开始 、 哪 里 是 帧 的 结束 。 然 而 ， 这 是 仅 有 的 相似 之 处 。 特 别 地 ， 由 于 并 不 使 用 比特 填 
充 ， 所 以 帧 的 长 度 不 依赖 于 传送 的 数据 。SONET 帧 的 问题 是 接收 方 如 何 知道 每 一 帧 从 哪 
里 开始 和 到 哪里 结束 。 我 们 针对 速率 为 51. 84Mbps 的 STS-1 低速 SONET 链 路 来 考虑 这 
个 问题 。 一 个 STS-1 帧 如 图 2-11 所 示 ， 它 有 9 行 ， 每 行 90 个 字 节 ， 并 且 每 行 的 前 3 个 字 
节 是 系统 管理 信息 ， 其 余 字 节 可 用 于 链 路 上 传送 的 数据 。 帧 的 前 两 个 字 节 包含 一 个 特定 的 
比特 模式 ， 使 得 接收 方 能 够 确定 帧 从 哪里 开始 。 然 而 ， 由 于 不 使 用 比特 填充 ， 所 以 这 个 模 
式 可 能 会 偶尔 出 现在 帧 的 有 效 载 荷 部 分 。 为 了 避免 出 现 这 种 情况 ， 接 收 方 不 断 地 寻找 特定 
比特 模式 ， 希 望 它 每 810 个 字 节 出 现 一 系统 管理 信息 = 一 | 
次 ， 因 为 每 帧 的 长 度 是 9X90 二 810 字 | Boo. 





节 。 当 特定 的 模式 在 应 有 的 位 置 出 现 多 
次 时 ， 接 收 方 可 推断 它 处 于 同步 状态 ， oF 
然后 就 能 正确 地 解释 帧 。 

由 于 SONET 的 复杂 性 ， 我 们 没有 | 
描述 所 有 其 他 系统 管理 信息 字 节 的 详细 0 
用 法 。 它 的 复杂 性 可 部 分 归结 为 ，SO- 图 2-11 SONET STS-1 Wi 
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NET 是 在 电信 公司 的 光 网 上 运行 的 ， 而 不 仪 仪 是 在 一 条 单 链 路 上 运行 。( 回 忆 一 下 ， 我 们 
羯 盖 了 电信 公司 实现 网 络 的 事实 ， 而 仅 考 虑 租用 一 条 SONET 链 路 ， 并 使 用 这 条 链 路 建立 
自己 的 分 组 交换 网 。) 额外 的 复杂 性 还 来 自 于 SONET 可 提供 更 丰富 的 服务 ， 而 不 仅仅 是 
数据 传输 。 例 如 ， 为 用 于 维护 的 语音 信道 预 留 一 个 容量 为 64kbps 的 SONET 链 路 。 

SONET 帧 的 系统 管理 信息 字 节 可 用 NRZ 编码 ， 这 是 前 一 节 描 述 的 一 种 简单 编码 ， 其 
中 1 表示 高 0 表示 低 。 然 而 ， 为 确保 有 足够 的 跳 变 使 接收 方 获得 发 送 方 的 时 钟 ， 有 效 载荷 
字 节 需 混 和 杂 编 码 〈scramble)， 通 过 计算 被 传输 数据 与 一 个 已 知 的 比特 模式 的 或 《〈 蜡 或 ) 
来 完成 。 比 特 模式 的 长 度 是 127 比特 ， 其 中 有 许多 从 1 到 0 的 跳 变 ， 因 此 ， 与 被 传输 数据 
进行 异 或 运算 后 可 得 到 具有 足够 多 跳 变 的 信号 ， 使 接收 方 能 够 恢复 时 钟 。 

SONET 以 下 面 的 方式 文 持 多 个 低速 链 路 的 多 路 复 用 。 一 个 给 定 的 SONET 链 路 以 一 
组 有 限 的 可 能 速率 运行 ， 从 51. 84Mbps (STS-1) 到 2 488. 32Mbps (STS-48) 或 更 高 。 
注意 所 有 速率 都 是 STS-1 的 整数 倍 。 组 帧 的 意义 在 于 ， 单 个 SONET 帧 能 包含 多 个 较 低 速 
率 信道 的 子 帧 。 第 二 个 相关 的 特征 是 每 一 帧 长 125pys。 这 就 是 说 ， 在 STS-1 速率 下 ， 一 个 
SONET 帧 是 810 FFI, ME STS-3 速率 下 ， 每 个 SONET 帧 是 2 430 字 节 长 。 注 意 这 
两 个 特征 间 的 关系 是 : 3X810=2 430， 即 三 个 STS-1 帧 正好 放 在 一 个 STS-3 帧 中 。 

直观 地 讲 ，STS-N 帧 可 认为 是 由 N 个 STS-1 帧 构成 的 ， 这 些 帧 中 的 字 节 是 交 又 的 ， 
即 传输 第 一 帧 的 一 个 字 节 ， 然 后 传输 第 二 帧 的 一 个 字 节 ， 等 等 。 交 叉 每 个 STS-N 帧 中 的 
字 节 的 原因 是 保证 每 个 STS-1 帧 的 字 节 传送 进度 均匀 ， 即 字 节 在 接收 方 以 51Mbps 的 平滑 
速率 出 现 ， 而 不 是 在 125ps 间隔 的 某 个 1/N 的 时 间 内 全 部 成 串 出 现 。 

尽管 STS-N 信和 号 可 看 成 是 多 路 复 用 的 N 个 STS-1 帧 ， 但 这 些 STS-1 Wl A Be tar e 
可 以 串 接 在 一 起 形成 一 个 更 大 的 STS-N 的 有 效 载荷 ， 这 样 的 链 路 表示 为 STS-Ne (c 表示 
串 接 的 〈concatenated) ) 。 系 统管 理 信息 中 的 一 个 字段 就 用 于 这 个 目的 。 图 2-12 描述 了 三 
个 STS-1 帧 串 接 成 一 个 STS-3c 帧 的 情形 。 将 SONET 链 路 设计 成 STS-3c 而 不 是 STS-3 的 
意义 在 于 ， 在 前 一 种 情形 中 ， 用 户 可 将 链 路 看 成 一 个 单一 的 155. 25Mbps 管道 ， 而 STS-3 
实际 应 看 作 共 享 一 条 光纤 的 三 条 51. 84Mbps FERS. 

最 后 ， 前 面 描述 的 SONET 过 于 简单 ， 因 为 它 假设 每 一 帧 的 有 效 载 荷 完全 包括 在 帧 内 
(为 什么 有 例外 的 情况 ?) 。 事 实 上， 应 该 简单 地 把 刚刚 描述 的 STS-1 MA EAS Aah. Ti 
真正 的 有 效 载 荷 可 能 跨越 (loat) 帧 边界 。 这 种 情形 如 图 2- 13 所 示 。 在 此 可 以 看 到 ， 
STS-1 有 效 载 荷 跨越 两 个 STS-1 帧 ， 而 且 有 效 载荷 向 右 移 了 几 个 字 节 绕 了 回来 。 帧 的 系统 
管理 信息 中 的 一 个 字段 指向 有 效 载荷 的 起 点 。 这 样 做 的 价值 是 简化 电信 网 中 的 时 钟 同 步 工 
作 ， 而 时 钟 同步 是 电信 网 要 花 很 多 时 间 来 处 理 的 事情 。 








图 2-12 三 个 STS-1 帧 串 接 成 一 个 STS-3c Wy 图 2-13 跨越 帧 边界 的 SONET hi 


50 ` GLE 


2.4 差错 检测 

如 第 1 章 中 的 讨论 ， 帧 中 有 时 会 发 生 比 特 错 。 例 如 ， 由 于 电 干 扰 或 热 噪 首 ， 就 会 发 生 

这 样 的 差错 。 尽 管 差错 很 少 ， 特 别 是 在 光 链 路 上 ， 但 还 是 需要 某 种 机 制 来 检测 这 些 差错 ， 
以 便 采 取 纠 错 措 施 。 和 否则， 终端 用 户 会 奇怪 为 什么 刚刚 成 功 编译 的 C 程序 现在 突然 会 有 一 
个 语法 错 。 发 生 这 样 的 差错 是 因为 这 个 程序 是 通过 一 个 网 络 文件 系统 拷贝 过 来 的 。 
用 来 处 理 计算 机 系统 中 比特 错 的 技术 已 有 很 长 的 历史 ， 至 少 可 以 追溯 到 20 世纪 40 年 
代 。 星 在 使 用 打 孔 机 以 及 当 数 据 保存 在 磁盘 或 早期 的 磁 心 存储 器 时 就 已 经 开发 出 了 汉 明 
(Hamming) 码 和 里 德 - 所 罗 门 (Reed-Solomon) 码 。 A Se Ne 常用 的 一 些 差错 
检测 技术 。 

检 钳 只 是 问题 的 部 分 ， 另 部 分 是 发 现 差错 就 立即 纠 错 ， 当 消息 的 接收 方 检测 到 
差错 时 ， 可 以 采取 两 种 基本 方法 。 一 种 是 通知 发 送 方 消息 受到 破坏 ， 使 发 送 方 重 发 消息 的 
副本 。 如 果 比 特 错 很 少 ， 那 么 重 传 的 副本 很 可 能 没有 差错 。 另 一 种 方法 是 采用 几 种 差错 检 
测算 法 ， 它 们 使 接收 方 即使 在 消息 出 错 后 仍 可 以 重新 构造 正确 的 消息 。 这 些 算法 依赖 于 下 
面 讨论 的 纠 错 码 (error-correcting code). 

检测 传输 差错 的 一 项 最 常用 的 技术 叫 作 循环 兄 余 校 验 (Cyclic Redundancy Check, 
CRC) 。 它 几乎 用 在 前 几 节 讨论 的 所 有 链 路 层 协议 中 ， 例 如 HDLC, DDCMP 以 及 本 章 后 
面 讲 到 的 CSMA 和 无 线 协议 。2. 4. 3 节 概 述 基 本 的 CRC 算法 。 在 讨论 该 算法 之 前 ， 我 们 
考虑 两 种 也 被 广泛 使 用 的 较为 简单 的 差错 检测 方法 : 二 维 奇 偶 校 验 (two-dimensional par- 
ity) 与 校 验 和 (checksum) 。 前 者 在 BISYNC 协议 传输 ASCI 码 字 符 时 采用 C24 BISYNC 
用 于 传输 EBCDICS 时 用 CRC) ， 而 后 者 在 若干 因特网 协议 中 使 用 。 

任何 差错 检测 方案 的 基本 思想 都 是 在 帧 中 加 入 宛 余 信息 来 确定 是 否 存在 差错 。 极 端 情 
况 下 ， 可 以 想象 传输 数据 的 两 个 完整 副本 。 如 果 这 两 个 副本 在 接收 方 是 相同 的 ， 那 么 可 能 
它们 都 是 正确 的 ;如 果 不 同 ， 那 么 其 中 之 一 或 者 两 者 都 有 错误 ， 必 须 将 它们 丢弃 。 这 是 相 
当 差 的 差错 检测 方案 ， 原 因 有 两 点 : 第 一 ， 它 为 n 比特 消息 发 送 n 比特 元 余 信 息 ; 第 二 ， 
有 许多 差错 检测 不 到 ， 如 恰好 在 消息 的 第 一 和 第 二 个 副本 的 相同 比特 位 置 出 错时 ， 便 检测 
不 到 。 








幸运 的 是 ， 我 们 有 比 这 个 简单 方案 更 好 的 方法 一 般 说 来 ， 当 为 n 比特 消息 仅 发 送 
个 元 余 比特 时 ， 我 们 能 够 提供 相当 强 的 差错 检测 能 力 ， 其 中 <<n。 例如， 在 以 太 网 上 ， 一 
个 12 000 比特 (1 500 FT) 的 数据 帧 仅 需 要 一 个 32 位 的 CRC 码 ， 通 常 表示 为 CRC-32。 
下 面 将 会 看 到 ，CRC 码 能 发 现 大 多 数 的 差错 。 

之 所 以 说 发 送 的 额外 比特 是 元 余 信息 ， 是 因为 它们 不 是 向 消息 中 加 入 新 的 信息 ， 而 是 
用 某 种 明确 定义 的 算法 直接 从 原始 消息 中 导出 信息 。 发 送 方 和 接收 方 都 确切 知道 这 个 算 
法 ， 发 送 方 将 该 算法 应 用 到 消息 上 以 产生 元 余 比特 。 然 后 ， 它 将 该 消息 和 抑 余 比 特 都 传输 
出 去 。 当 接收 方 对 收 到 的 消息 应 用 同一 算法 时 ，( 在 没有 差错 的 情况 下 ) 应 该 产生 与 发 送 
方 相同 的 结果 。 它 将 结果 与 发 送 方 发 给 它 的 结果 进行 比较 ， 如 果 它 们 相等 ， 就 可 能 (以 很 
高 的 或 然 率 ) 做 出 结论 ， 消 息 在 传输 过 程 中 没有 出 错 ; 如 果 不 相等 ， 就 能 够 确定 消息 或 元 余 
比特 受到 破坏 ， 对 此 必须 采取 适当 的 措施 ， 那 就 是 丢弃 消息 ， 或 在 可 能 的 情况 下 纠 错 。 


OQ ”用 于 20 世纪 60 年 代 的 男 一 种 字符 编码 模式 。 
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注意 这 些 额 外 比特 的 术语 。 一 般 说 来 ， 它们 指 的 是 差错 检测 码 (error detecting code), 
在 特定 的 情况 下 ， 当 产生 编码 的 算法 是 以 相 加 为 基础 时 ， 可 能 称 为 校 验 和 (check sum), R 
们 将 会 看 到 ， 因 特 网 校 验 和 的 命名 是 很 恰当 的 : 它 是 使 用 求 和 算法 的 一 种 差错 检测 机 制 。 
不 邓 的 是 ， 校 验 和 这 个 词 常 被 不 准确 地 用 于 表示 任何 形式 的 差错 检测 码 ， 包 括 CRC。 这 可 
能 引起 混乱 ,， 因 此， 我 们 主张 将 校 验 和 这 个 词 仅 用 于 真正 使 用 求 和 运算 的 代码 ， 而 用 差错 
检测 码 这 个 词 表 示 本 市 拉 述 的 一 般 类 型 的 代码 。 


2.4.1 二 维 奇偶 校 验 


二 维 襄 偶 校 验 就 是 这 个 名 字 所 指 的 含义 。 它 基于 “简单 的 ” (一 维 ) 奇偶 校 验 一 一 通 
Fe TEP AY 1 比特 附加 到 7 比特 编码 上 ， 来 平衡 字 节 中 1 的 个 数 。 例 如 ， 奇 校 验 根 据 字 节 
中 1 的 个 数 置 位 第 8 比特 位 ， 使 8 个 比特 中 1 的 个 数 为 奇数 ， 而 偶 校 验 则 置 位 第 8 比特 位 
使 8 个 比特 中 1 的 个 数 为 偶数 。 二 维 奇 偶 校 验 对 帧 中 每 一 字 节 的 每 校 验 位 
一 比特 位 置 进 行 类 似 的 计算 。 结 果 除 了 每 一 字 节 增加 1 个 奇偶 校 验 












位 外 ， 整 个 帧 产生 了 一 个 额外 的 奇偶 校 验 字 节 。 图 2-14 说 明 二 维 [T0001 
偶 校 验 对 一 个 含有 6 字 节 数据 的 帧 的 操作 过 程 。 需 要 注意 的 是 ， 奇 [Torno 
BREZE pH 3 个 比特 是 1， 因 为 帧 中 6 SEH he AE o 
有 奇数 个 1。 可 以 证 明 ， 二 维 奇 得 校 验 可 检测 所 有 1、2、3 比特 错 | 让 


及 大 部 分 4 比特 错 。 在 这 种 情况 下 ， 我 们 给 42 比特 的 消息 加 入 了 | ona 


14 比特 的 宛 余 信 息 ， 从 而 对 于 一 般 差错 具有 比 上 面 描述 的 “重复 pe 
码 ” 更 强 的 保护 能 力 ， | Te 


2.4.2 因特网 校 验 和 算法 


差错 检测 的 第 二 种 方法 以 因特网 校 验 和 为 例 。 虽 然 此 方法 不 在 链 路 层 使 用 ， 但 它 仍 提 
供 了 与 CRC 和 奇偶 校 验 同样 的 功能 ， 因 此 在 这 里 进行 讨论 。 在 4.1 节 、5.1 节 和 5.2 节 将 
看 到 它 的 实例 。 | 

因特网 校 验 和 的 思想 非常 简单 一 一 将 传输 的 所 有 字 加 起 来 ， 然 后 传输 这 个 相 加 的 结 
果 ， 此 结果 称 为 校 验 和 。 接 收 方 对 收 到 的 数据 执行 同样 的 计算 ， 然 后 把 得 到 的 结果 与 收 到 
的 校 验 和 进行 比较 。 如 果 传 输 的 任何 数据 (包括 校 验 和 本 身 ， 出错， 那么 结果 将 不 相同 ， 
接收 方 就 知道 发 生 了 错误 。 | | | | | 

可 以 想象 校 验 和 基本 思想 的 许多 不 同 变种 。 因 特 网 协议 所 使 用 的 具体 方案 如 下 。 把 计 
算 校 验 和 的 数据 看 作 一 个 16 位 整数 序列 ， 采 用 16 位 反 码 算法 〈 下 面 解释 ) 将 它们 加 在 一 
起 ， 然 后 对 结果 取 反 码 ， 得 到 的 16 位 数 即 为 校 验 和 。 

在 反 码 算法 中 ， 负 整数 一 z 用 z 的 反 码 表示 ， 也 就 是 说 ， 将 z 的 每 一 位 取 反 。 当 在 反 
码 算 法 中 进行 加 法 运算 时 ， 需 要 将 来 自 于 最 高 有 效 位 的 一 个 进位 加 到 结果 中 。 例 如 ， 考 虑 
4 比特 整数 的 反 码 算法 中 一 5 与 一 3 相 加 。 十 5 是 0101， 所 以 一 5 是 1010; 十 3 是 0011， 所 
以 一 3 是 1100。 如 果 我 们 将 1010 和 1100 相 加 而 不 考虑 进位 ， 则 得 到 0110。 在 反 码 算法 
中 ， 将 最 高 位 的 进位 再 加 到 结果 上 ， 得 到 0111， 正 如 我 们 预期 的 ， 它 是 一 8 的 反 码 表示 
(对 1000 各 位 取 反 而 获得 )。 

下 面 的 例 程 给 出 因特网 校 验 和 算法 的 一 个 直接 实现 。 参 数 count 给 出 以 16 位 为 单位 
的 buf 的 长 度 。 例 程 假 设 buf 的 末尾 已 经 用 0 填充 成 16 位 。 | 





u_short 
cksum(u-short xbuf, int count) 


{ 


register u_long sum = 03 


while (count--) 
{ 
Sum += DUTE; 
if (sum & OxFFFFOOO0O) 
{ 
/* carry occurred, 
so wrap around */ 
sum &= OxFFFF: 
SUM++ ; 
} 
} 
return ~(sum & OXFFFF); 


} 

这 段 代码 确保 计算 使 用 反 码 算法 而 不 是 大 部 分 机 器 上 使 用 的 补 码 算法 。 注 意 while ff 
环 之 内 的 fea), WETE sum 的 16 位 最 高 位 有 一 个 进位 ， 那 么 就 像 在 前 面 的 例子 中 一 样 
给 sum 加 1。 

这 个 算法 比重 复 编码 要 好 ， 因 为 它 使 用 很 少 的 宛 余 比特 ， 即 对 任意 长 度 的 消息 仅 用 16 
位 ， 但 是 它 的 差错 检测 能 力 却 不 太 好 。 例 如 ， 有 一 对 单 比特 错 ， 一 个 比特 错 使 一 个 字 增 加 
1， 而 另 一 个 比特 错 使 另 一 个 字 减 少 1， 若 两 种 差错 数量 相同 便 无 法 检测 。 虽 然 在 检 错 能 力 
上 相对 较 弱 (例如 与 CRC 相 比 ) ， 但 我 们 仍然 使 用 这 种 算法 ， 原 因 很 简单 : 这 个 算法 易于 用 
软件 实现 。ARPANET 网 的 经 验 表明 ， 这 种 形式 的 校 验 和 就 足够 了 。 理 由 是 校 验 和 是 端 到 端 
协议 的 最 后 一 道 防线 ， 大 部 分 差错 将 由 链 路 层 上 更 强 的 差错 检测 算法 (如 CRO 检查 出 来 。 





简单 概率 计算 

当 处 理 网 络 差错 和 其 他 (我 们 希望 ) 不 大 可 能 发 生 的 事件 时 ,通常 使 用 简单 概率 售 
计 。 这 里 有 一 个 有 用 的 近似 值 ， 如 果 两 个 独立 事件 共有 小 概率 p 和 gq， 那么 两 个 事件 之 一 
发 生 的 概率 是 p 十 g， 准 确 答案 是 1 一 (1 一 p) (1 一 g) 二 pp + aq-pbq. HF p=q=0.01, th 
计 值 是 0. 02， 而 准确 值 是 0.0199, 

考虑 这 个 结果 的 一 个 简单 应 用 ,假设 一 条 链 路 上 的 每 比特 差错 率 是 1/107 。 假 设 需 要 
估计 在 一 个 10 000 比特 分 组 中 至 少 1 比特 出 现 差错 的 概率 。 利 用 上 述 方法 对 所 有 比特 反复 
近似 ， 我 们 感 兴趣 的 是 第 1 比特 错 的 概率 、 第 2 比特 错 的 概率 或 第 3 比特 错 的 概率 ， 依 次 
类 推 。 故 比特 错 完 全 是 独立 的 《其 实 不 是 )， 我 们 可 以 估计 ， 一 个 10 000 (104) 比特 的 分 
组 中 至 少 有 一 个 差错 的 概率 是 104X10- 7" 王 10-3。 由 1 一 已 (无 错 ) 计算 出 的 准确 答案 是 
1 人 11077100000.000.099.50。 

对 于 复杂 一 些 的 应 用 ， 我 们 计算 一 个 分 组 中 出 现 两 个 差错 的 概率 ， 即 逃脱 工 奇 偶 校 验 
位 核验 和 差错 的 概率 。 考 虑 在 一 个 分 组 中 的 两 个 特定 的 比特 ， 分别 为 比特 i 和 和 比特 ;7， 恰 
是 这 两 个 比特 错 的 概率 是 10-7 X10-7。 在 这 个 分 组 中 ， 可 能 的 比特 对 的 总 数 是 


7 


104 
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所 以 ,再 次 利用 多 偶然 事件 (其 中 包括 任意 可 能 出 错 的 比特 对 ) 概率 的 反复 相 加 近似 求 得 
至 少 两 个 比特 错 的 概率 是 5X107X10-M 二 5X10-7。 | 


2.4.3 循环 元 余 校 验 


至 此 ， 我 们 应 该 清楚 设计 差错 检测 算法 的 主要 目标 是 用 最 少 的 宛 余 比特 检测 最 多 的 错 
误 。 循 环 元 余 校 验 使 用 一 些 功能 很 强 的 数学 算法 来 达到 这 个 目标 。 例 如 ， 一 个 32 比特 的 
CRC 码 对 于 上 干 字 节 长 的 消息 中 一 般 的 比特 错 具 有 很 强 的 检测 能 力 。 循 环 元 余 校 验 的 理 
论 基础 源 于 一 个 称 为 有 限 域 (finite field) 的 数学 分 支 。 尽 管 听 起 来 深奥 ， 但 它 的 基本 思 
想 很 容易 理解 。 

首先， 考虑 一 个 由 对 次 多 项 式 〈 即 最 高 寡 次 项 是 z 的 多 项 式 ) 表示 的 2 十 1 比特 消 
息 。 用 多 项 式 表示 消息 时 ， 消 息 的 每 一 比特 值 为 多 项 式 中 每 一 项 的 系数 ， 并 从 最 高 有 效 位 
代表 最 高 罕 次 项 开始 。 例 如 ， 一 个 8 比特 消息 10011010 对 应 多 项 式 

M(x) =1X27+0X% rê? 0X2 +1X% at +1% 22? HOX 
+1X2¢7'+0Xxe =a’ prt Hr +r! 
这 样 ， 我 们 可 以 认为 发 送 方 和 接收 方 在 互相 交换 多 项 式 。 

为 了 计算 CRC， 发 送 方 和 接收 方 必须 商定 一 个 除数 (divisor) 多 项 式 C(x), C(x) 
是 一 个 次 窜 的 多 项 式 。 例 如 ， 假设 C(x) 二 zx; 十 zx? 十 1， 在 这 种 情况 下 ,二 3。 在 多 数 实 
际 情况 中 ,，“C(z)〉 从 何 而 来 ”这 个 问题 的 答案 是 “到 书 中 去 找 ”。 事 实 上 ， 正 如 下 面 要 讨 
VERY, Clr) 的 选择 对 于 能 被 可 靠 检测 的 差错 类 型 有 很 大 影响 。 有 少数 除数 多 项 式 对 于 各 
种 情况 都 是 很 好 的 选择 ， 并 且 准 确 的 选择 通常 是 协议 设计 的 一 部 分 。 例 如 ， 以 太 网 标准 使 
用 一 个 众所周知 的 32 次 需 的 多 项 式 。 

当 发 送 方 想 要 传输 一 个 2 十 1 比特 长 的 消息 M(x) 时 ， 实 际 发 送 的 是 该 2 十 1 比特 的 消 
息 加 上 比特。 我 们 将 这 个 包括 元 余 比 特 的 完整 消息 称 为 P(x)。 我 们 要 做 的 就 是 试图 使 
表示 P(x) 的 多 项 式 恰 能 被 CCz) 整除 ， 下 面 解释 如 何 去 做 。 如 果 在 一 条 链 路 上 传输 
P(x)， 并 且 在 传输 过 程 中 没有 发 生 差错 ， 那 么 接收 方 应 该 能 用 C(x) 整除 P(x), RAN 
0。 另 一 方面 ， 如 果 在 传输 过 程 中 P(z) 中 出 现 了 某 个 差错 ， 那 么 收 到 的 多 项 式 总 体 上 可 
能 无 法 被 CCz) 整除 ， 因 此 接收 方 得 到 一 个 非 零 余数 ， 说 明 发 生 了 差错 。 

了 解 一 些 多 项 式 运 算 的 知识 将 有 助 于 理解 下 面 的 内 容 ， 它 与 普通 的 整数 运算 略 有 不 
同 。 这 里 ， 我 们 处 理 一 类 特殊 的 多 项 式 运 算 ， 其 中 系数 仅 为 1 或 0， 并 且 用 模 2 算术 执行 
对 系数 的 运算 。 称 为 “ 模 2 多 项 式 算术 ”。 由 于 这 是 一 本 关于 网 络 的 书 而 不 是 数学 诬 本 ， 
所 以 让 我 们 将 重点 集中 在 这 类 运算 的 主要 特征 上 (需要 接受 的 定理 )。 

。 对 于 任意 多 项 式 ， 如 果 Bix) WREKE C) 高 ， 则 Bex) 都 能 被 CCz) 除 。 

。 WRB) WRS Ca) 相同 ， 则 任何 多 项 式 Bix) 都 能 被 除数 多 项 式 C(x) 除 1 次。 

e Bix) RAC) 所 得 余数 是 由 B(x) 减 去 CCz) 得 到 的 。 为 了 得 到 Blo) WA C. 

(zx) 的 结果 ， 我 们 仅仅 在 每 一 对 匹配 的 系数 上 执行 或 〈 蜡 或 ) 操作 。 

例如 ， 多 项 式 x 十 1 能 被 十 xz? 十 1 AA ENN RKB 3. RM 0X ae + 
1Xzx? 十 0Xz!i 十 0Xx? 二 xz? (由 每 一 项 系数 的 异 或 得 到 )。 以 消息 的 形式 ， 我 们 可 以 说 
1001 能 被 1101 除 ， 余 数 为 0100。 可 以 看 出 ,余数 恰好 是 两 个 消息 的 比特 的 按 位 蜡 或 。 

现在 我 们 知道 了 多 项 式 除 法 的 基本 规则 ， 我 们 能 够 做 长 除法 ， 这 对 于 处 理 较 长 的 消息 


ze 2# 


是 必要 的 。 下 面 看 一 个 例子 。 
回忆 一 下 ， 我们 希望 创建 一 个 从 原始 消息 M(x) 得 到 的 用 于 传输 的 多 项 式 ， 它 比 
M(x) 长 有 个 比特 ， 并 且 能 被 CCz) 整除 。 可 以 按 下 面 的 步骤 执行 : 
D 用 x* 乘 M(x)， 就 是 在 消息 的 末尾 加 上 & 个 0， 这 称 为 零 扩 展 的 消 恩 TO). 
2) HC) 除 T(x)， 并 求 出 余数 。 
3) 从 T(x) 减 去 余数 。 
显然 ， 这 时 所 剩 的 是 能 被 CCz) 整除 的 一 个 消息 。 注 意 ， 作 为 结 采 的 消息 由 M) 后 
接 从 第 2 步 得 到 的 余数 组 成 ， 因 为 在 减 去 余数 〈 不 会 长 于 & 比特 ) 时 ， 仅 仅 是 将 它 与 第 1 
步 中 加 入 的 个 0 进行 异 或 。 这 部 分 内 容 用 一 个 例子 说 明 将 会 更 加 清 苞 。 
考虑 消息 十 zt 十 zs 十 zl 或 10011010。 我 们 从 将 它 乘 以 x 开始 ， 因 为 除数 多 项 式 的 
宕 次 是 3。 这 就 得 到 10011010000, HC) 除 这 个 多 项 式 ， 这 时 C(x) 对 应 于 1101。 图 
2-15 显示 了 多 项 式 的 长 除 运算 。 给 定 上 面 讨论 的 多 项 式 算术 规则 ， 长 除 运算 很 像 整 数 除 
法 。 因 而 ， 在 例子 的 第 1 步 ， 我 们 看 到 除数 1101 除 消息 的 前 4 个 比特 (1001)， 因 为 它们 
是 等 寡 的 ， 得 到 余数 100 (1101 蜡 或 1001)。 下 一 步 ee 
是 从 消息 多 项 式 中 拿 下 一 位 数字 ， 直 到 得 到 与 C(x) mma ii = 一 消息 
| 
| 


BAPE, ERIRE 1001。 再 次 计算 余 oot | ||| 
数 〈100) ， 继 续 下 去 直到 计算 完成 。 注 意 ， 我 们 对 出 | 
现在 算式 上 方 的 长 除法 结果 并 不 感 兴趣 ， 重 要 的 是 计 1101) 
算 后 得 到 的 余数 。 1101) | 
从 图 2-15 的 底部 可 以 看 到 ， 本 例 计算 的 余数 是 lo 
101。 由 此 可 知 ，10011010000 wk 101 一 定 可 以 被 %00 
Cla) 整除 ， 并 且 这 个 差 就 是 我 们 所 传送 的 数据 。 多 101 = 余数 


项 式 算术 中 的 减法 运算 就 是 逻辑 异 或 运算 ， 因 此 实际 
发 送 的 是 10011010101。 如 上 面 指 出 的 那样 ， 此 时 传 
送 的 正 是 原始 消息 再 附带 上 余数 (由 长 除法 计算 得 出 )。 接 收 方 用 Ci) 除 接 收 到 的 多 项 
式 ， 奉 结果 为 0， 则 无 错 ;， 若 结果 非 0"， 可 能 有 必要 丢弃 出 错 的 消息 。 使 用 某 些 编码 有 可 
能 纠正 小 的 差错 “〈 例 如 仅 有 1 比特 的 差错 )。 能 够 纠正 差错 的 编码 称 为 纠 错 码 (Error-Cor- 
recting Code, ECC), . | 

现在 考虑 多 项 式 C(x) 从 哪里 来 的 问题 。 直 观 地 讲 ， 选 择 的 多 项 式 不 大 可 能 除 尽 有 错 的 
消息 。 如 果 被 传输 的 消息 是 PCz) ， 则 可 以 将 引入 的 差错 看 作 是 加 入 另 一 个 多 项 式 E), Hr 
以 接收 方 看 到 的 是 PCz) 十 E(x)。 检 测 不 到 差错 的 唯一 情形 是 收 到 的 消息 能 被 CCz) 整 - 
除 ， 由 于 知道 PCz) 能 被 CCz) BR, PU RAY E(x) 也 能 被 CCz) 整除 时 才 会 发 生 。 
选择 C(x) 的 技巧 是 使 常见 类 型 的 差错 多 半 不 能 被 其 整除 。 

一 种 常见 的 差错 类 型 是 单 比特 错 ， 第 i 比特 错时 可 表示 为 (x) 二 xi。 如 果 我 们 选 
Cia) 时 它 的 第 一 项 及 最 后 一 项 不 为 0， 那 么 就 有 一 个 有 两 项 的 多 项 式 ， 它 不 可 能 整除 单 
项 的 ECz)。 因 此 ， 这 样 的 CCz) 能 够 检测 所 有 单 比特 错 。 一 般 说 来 ， 可 以 证 明 具 有 下 述 
性 质 的 CCz) 能 检测 出 以 下 几 类 差错 ; 

。 只 要 x 和 x? 项 的 系数 不 为 0， 可 检测 所 有 单 比 特 错 。 

。 只 要 C(x) 含有 一 个 至 少 三 项 的 因子 ， 可 检测 所 有 双 比 特 错 。 

。 HEC) 包含 因子 z 十 1， 可 检测 任意 奇数 个 错 。 


图 2 15 使 用 多 项 式 长 除法 计算 CRC 
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。 任何 组 长 度 小 于 & 比特 的 “成 组 ”差错 〈 即 连续 的 错误 比特 序列 ， 大 部 分 大 于 & 比 
特 的 成 组 差错 也 能 检测 到 ) 。 | 
EER DWP ZEH 6 种 版 本 的 CCz) (如 表 2-3 所 示 )。 例 如 ， 以 太 网 使 用 CRC- 
32， 而 HDLC 使 用 CRC-CCITT, 第 3 章 描述 的 ATM 使 用 CRC-8、CRC-10 和 CRC-32 


表 2-3 常见 的 CRC 多 项 式 


CRC | Ce) 
CRC-8 epee el: | 
CRC-10 | | cae ae et ea 
CRC-12 | 
CRC-16 acre Ae EL 
CRC-CCITT oa pa | 
CRC-32 : Pee ES ee ree meee) seer Wat Bee E eee idee eel a sd EO 


最 后 ， 我 们 注意 到 ， CRC 算法 看 起 来 复杂 ， 但 在 硬件 上 使 用 一 个 & 比特 移 位 寄存 器 和 
若干 异 或 门 是 比较 容易 实现 的 。 移 位 寄存 器 中 的 位 数 消息 
等 于 生成 多 项 式 的 震 次 k). K 2-16 显示 了 用 于 前 面 
例子 的 生成 器 多 项 式 +2? +1 的 硬件 。 消 息 从 左边 
移 人 ， 以 最 高 有 效 位 开始 ， 并 以 附 在 消息 后 的 & 个 0 的 
比特 串 结束 ， 正 如 长 除法 中 的 例子 一 样 。 当 所 有 的 比 






” 异 或 门 六 


特 都 被 移 人 并 进行 了 相应 的 异 或 时 ， 寄 存 器 包含 余数 ， 图 2 16 使 用 移 位 寄存 器 计算 CRC 
即 CRC (右边 是 最 高 有 效 位 )。 异 或 门 的 位 置 按 如 下 方式 确定 :如果 移 位 寄存 器 中 的 各 位 
从 左 到 右 标记 为 0~k 一 1， 那 么 ， 如 果 生成 多 项 式 中 有 z 项 ， 就 在 位 之 前 放置 一 个 异 或 
门 。 因 而 ， 对 于 生成 多 项 式 tr +e, EAE 0 和 2 之 前 有 异 或 站 





检 错 还 是 纠 错 ? 

我 们 提 到 过 有 可 能 使 用 既 能 检 错 又 能 纠 错 的 编码 。 由 于 理解 这 种 编码 的 细节 需要 的 数 
学 知识 比 理解 CRC 需要 的 数学 知识 更 复杂 ， 所 以 这 里 不 加 详 述 。 然 而 ， 纠 错 相 对 于 检 错 
的 优点 却 值得 我 们 考虑 。 | 

乍 看 起 来 ， 纠 错 总 是 更 好 ， 因 为 检 错 时 ， 我 们 被 迫 丢弃 消息 并 请 求 传输 为 一 份 副 本 。 
这 会 用 尽 带 宽 并 可 能 在 等 待 重 传 时 产生 时 延 。 然 而 ， 这 对 于 纠 错 却 更 严重 : URES 
多 宛 余 比特 来 发 送 与 检 错 码 同样 强 〈 即 能 够 处 理 同一 差错 范围 ) AAS. A, RAD 
错 在 差错 发 生 时 需要 发 送 较 多 比特 ， 但 纠 错 却 始终 需要 发 送 更 多 的 比特 。 因 此 ， 当 处 于 下 - 
列 两 种 情况 之 一 时 ， 纠 错 才 是 最 有 用 的 : 差错 很 有 可 能 发 生 ， 例 如 在 无 线 环境 中 就 是 这 

样 ; 重 传 的 代价 太 高 ， 例 如 在 卫星 链 路 上 重 传 一 个 分 组 时 的 时 延 。 
| 网 络 中 使 用 的 纠 错 码 有 时 称 为 前 向 纠 错 (Forward Error Correction, FEC), Aw 4 
错 是 通过 发 送 额 外 的 信息 “预先 ”进行 的 ， 而 不 是 等 待 发 生 差错 后 再 通过 重 传 来 处 理 。 


2.5 可 靠 传输 
正如 前 一 节 所 述 ， 当 帧 在 传输 中 可 能 出 错时 ， 可 以 用 像 CRC 这 样 的 差错 码 来 检测 这 
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类 差错 。 虽 然 有 些 差 错 码 功能 很 强 ， 还 可 以 纠 错 ， 但 实际 上 却 由 于 开销 太 大 以 至 于 无 法 处 
理 网 络 链 路 上 发 生 的 比特 错 和 成 组 差错 。 即 使 在 用 纠 错 码 时 〈 例 如 在 无 线 链 路 上 ) ， 某 些 
差错 也 可 能 过 于 严重 而 无 法 纠正 。 因 此 ， 某 些 差错 帧 必须 丢弃 。 一 个 想 要 可 靠 传 输 帧 的 链 
路 层 协 议 必 须 能 以 某 种 方式 恢复 这 些 丢 弃 〈 丢 失 ) Wii. 

值得 注意 的 是 可 靠 性 可 以 是 链 路 层 提供 的 功能 ， 但 是 当前 许多 链 路 层 技 术 忽略 了 该 功 
能 。 竺 和 运 的 是 ， 在 高 层 协议 中 经 常 提 供 可 靠 传 输 ， 包 括 传 输 层 (在 5. 2 市 中 介绍 ) 和 应 用 
Z ER 9 章 中 介绍 ) 。 到 底 应 该 在 娜 一 层 提 供 可 靠 传 输 依 赖 于 很 多 因素 。 本 节 介 绍 可 靠 
传输 的 基本 思想 ， 该 思想 是 跨 层 的 ， 应 该 意识 到 该 思想 不 仅 只 适用 于 链 路 层 〈 详 见 上 面 的 
相关 主题 “ 层 中 包含 什么 ?”) 。 

通常 使 用 两 种 基本 机 制 确认 Cacknowledgement) 和 超时 (timeout) 的 组 合 来 完 
成 上 述 工 作 。 确 认 〈 简 称 ACK) 是 协议 发 给 它 的 对 等 实体 的 一 个 小 的 控制 帧 ， 告 知 它 已 
收 到 刚才 的 帧 。 所 谓 控制 帧 就 是 一 个 无 任何 数据 的 首部 ， 但 是 协议 也 可 以 将 ACK 4h A 
(piggyback) 在 一 个 恰好 要 发 问 对 方 的 数据 帧 上 。 原 始 帧 的 发 送 方 收 到 确认 ， 表 明 帧 发 送 
成 功 。 如 果 发 送 方 在 一 段 相 当 长 的 时 间 后 未 收 到 确认 ， 那 么 它 重 传 〈retransmit) JR aR WT. 
等 待 一 段 相 当 长 的 时 间 的 动作 称 为 超时 。 | 

使 用 确认 和 超时 实现 可 靠 传输 的 策略 有 时 称 为 自动 请 求 重 发 CAutomatic Repeat Re- 
quest，ARQ) 。 本 节 用 通用 的 语言 描述 三 种 不 同 的 ARQ 算法 ， 就 是 说 ， 我 们 不 给 出 一 个 
特定 协议 首部 字段 的 详细 信息 。 


2.5.1 停止 -等 待 


最 简单 的 ARQ 方案 是 停止 -等 待 〈stop-and-wait) 算法 ,停止 -等 待 的 思想 很 简单 : 
发 送 方 传输 一 帧 之 后 ， 在 传输 下 一 帧 之 前 等 竺 确认。 如 果 在 一 段 时 间 之 后 确认 没有 到 达 ， 
则 发 送 方 超时 ， 并 重 传 原始 帧 。 | 

图 2-17 说 明 此 算法 的 四 种 不 同情 形 ， 图 中 使 用 时 间 线 ， 这 是 描述 协议 行为 的 一 种 常 
用 方法 。 左 侧 表 示 发 送 方 ， 右 侧 表示 接收 方 ， 时 间 从 上 向 下 流动 。 图 2-17a 表示 在 计时 器 
超时 之 前 发 送 方 收 到 ACK 的 情况 ， 图 2-17b 和 图 2-17c 分 别 表示 原始 帧 和 ACK 丢失 的 情 
bi,» Bl 2-17d 表示 超时 过 快 发 生 的 情况 。 回 忆 一 下 , “丢失 ”的 意思 是 指 帧 在 传输 中 出 错 
时 ， 接 收 方 用 差错 码 检测 到 这 类 差错 ， 接 着 将 帧 丢弃 。 


RUT 接收 广 





发 送 方 接收 方 





a) 超时 前 收 到 ACK b) 原始 帧 丢失 
图 2-17 .停止 -等 待 算 法 的 四 种 不 同情 形 的 时 间 线 
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发 送 广 接收 方 
~ | 
a) ro OCO 
W | 
H 
0) ACKEX d) 过 早 超时 
图 2-17 (Œ) 


在 停止 -等 待 算法 中 有 一 个 重要 的 细节 。 假 设 发 送 方 发 送 一 个 帧 ， 并 且 接 收 方 确认 它 ， 
但 这 个 确认 丢失 或 迟到 了 ， 如 图 2-17c 和 图 2-17d 所 示 。 在 这 两 种 情况 下 ， 发 送 方 超时 并 
重 传 原始 帧 ， 但 接收 方 认为 那 是 下 一 帧 ， 因 为 它 正 确 地 接收 并 确认 了 第 一 帧 。 这 就 引起 重 
复 传 送 帧 的 问题 。 为 解决 这 个 问题 ， 停 止 - 等 待 协议 的 首部 通常 包含 1 比特 的 序号 ， 即 序 
“号 可 取 0 和 1， 并 且 每 一 帧 交替 使 用 序号 ， 如 图 2-18 所 示 。 因 此 ， 当 发 送 方 重 传 帧 0 时 ， 
接收 方 可 确定 它 是 帧 0 的 第 二 个 副本 而 不 是 帧 1 的 第 一 个 副 


发 送 方 接收 方 

本 ， 因 此 可 以 忽略 它 〈 在 第 一 个 ACK 委 失 的 情况 下 ， 接 收 方 a ee 
仍 确认 它 ) 。 Tna 

停止 - 等 待 算法 的 主要 缺点 是 ， 它 允许 发 送 方 每 次 在 链 路 | 一 
上 只 有 一 个 未 确定 的 帧 ， 这 可 能 远 远 低 于 链 路 的 容量 。 例如， 到 e 
考虑 一 条 往返 时 间 为 45ms 的 1. 5Mbps 链 路 。 这 条 链 路 的 延迟 Fy 
与 带宽 的 乘积 为 67. 5Kb (A 8KB) 。 由 于 发 送 方 每 个 RTT 仅 | 
能 发 送 一 帧 ， 并 假设 一 帧 的 大 小 为 IKB， 这 就 隐 含 最 大 发 送 速 Tn 


BitsPerFrame+ TimePerFrame= 1024 X 8+0. 045=182kbps | : : 
或 者 大 约 是 链 路 容量 的 1/8。 为 充分 利用 链 路 ， 我 们 希望 发 送 gore 带 有 1 比特 序号 的 
方 在 等 待 一 个 确认 之 前 最 多 能 够 发 送 8 W. 停止 - 等 待 时 间 线 





时 间 线 和 分 组 交换 
图 2-17 和 图 2-18 是 在 教学 、 解 释 和 设计 协议 中 经 常 使 用 的 一 种 工具 的 两 个 实例 ;时 





间 线 或 分 组 交换 图 。 本 书 中 有 很 多 这 样 的 图 参见 更 为 复杂 的 实例 图 9-9。 由 于 这 些 图 
可 以 随 着 时 间 发 展 可 视 地 捕获 分 布 式 系统 的 行为 ， 有 些 行为 可 能 是 很 难 分 析 的 ， 因 而 非常 
有 用 。 在 设计 协议 时 ， 必 须 为 一 些 意外 做 准备 ， 比 如 系统 上 崩溃、 消息 丢失 或 者 是 一 些 本 期 
望 很 快 发 生 的 事件 结果 占用 了 很 长 时 间 。 这 种 图 表 通 常 有 助 二 理解 在 此 情形 下 可 能 出 现 什 
么 故障 ， 进 而 帮助 协议 设计 者 为 应 对 每 一 种 不 测 做 准备 。 

延迟 带宽 积 的 重要 性 在 于 ， 它 表示 可 传输 的 数据 总 量 。 我 们 希望 不 等 待 第 一 个 确认 而 
能 够 发 送 这 么 多 的 数据 。 这 里 使 用 的 原理 通常 称 为 保持 管道 满载 (keeping the pipe full). 
下 面 两 节 中 的 算法 正 是 这 一 原理 的 体现 。 
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一 帧 的 ACK 到 达 的 同一 时 刻 准备 发 送 第 九 帧 。 允 许 这 样 做 的 算法 称 为 滑动 窗口 (sliding 
window)， 其 时 间 线 如 图 2-19 Bra. 发 送 方 Bes 
1. 滑动 窗口 算法 | E | 
滑动 窗口 算法 的 工作 过 程 如 下 。 首 先 ， 发送 方 对 每 
一 帧 赋予 一 个 序号 (sequence number)， 记 作 SeqNum。 
现在 ， 忽 略 SeqNum 是 由 有 限 大 小 的 首部 字段 实现 的 事 
实 ， 而 假设 它 能 无 限 增 大 。 发 送 方 维护 三 个 变量 : 发 送 | 
窗口 大 小 (send window size), iE SWS， 给 出 发 送 方 ' 
能 够 发 送 但 未 确认 的 帧 数 的 上 界 ; LAR 表示 最 近 收 到 的 ' 
确认 帧 (last acknowledgement received) 的 序号 ; LFS 图 2-19 滑动 窗口 算法 的 时 间 线 
表示 最 近 发 送 的 帧 〈last frame sent) 的 序号 。 发 送 方 还 遵循 如 下 的 不 等 式 : 
LFS—LAR<SWS 








这 种 情况 如 图 2-20 所 示 。 


<SWS 
ne Td es 
LAR LFS 


图 2-20 发 送 方 的 滑动 窗口 


当 确 认 到 达 时 ， 发 送 方 向 右 移 动 LAR， 从 而 允许 发 送 方 发 送 另 一 帧 。 同 时 ， 发 送 方 
为 所 发 的 每 个 帧 设置 一 个 定时 项 ， 如 果 定 时 需 在 接收 到 ACK 之 前 超时 ， 则 重 传 此 帧 。 注 
意 ， 发 送 方 必须 最 多 能 缓存 SWS 个 帧 ， 因 为 在 它们 得 到 确认 之 前 必须 准备 重 传 。 

接收 方 维护 下 面 三 个 变量 : 接收 窗口 大 小 (receive window size) ， 记 为 RWS， 给 出 接收 
方 所 能 接收 的 无 序 帧 数目 的 上 界 ，LAEF 表示 最 大 的 可 接收 帧 (largest acceptable frame) 的 序 
3; LFR 表示 最 后 收 到 的 帧 (last frame received) 的 序号 。 接 收 方 也 遵循 如 下 不 等 式 : 

LAF—LFR<RWS | 

这 种 情况 如 图 2-21 所 示 。 


RWS ooo 

rr ae ea ae a B aes a eye 
i t 
LFR LAF 


图 2-21 接收 方 的 滑动 窗口 


当 一 个 具有 序号 SeqNum 的 帧 到 达 时 ， 接 收 方 采取 如 下 行动 , 如 果 SeqNum<LFR 或 
SeqNum>LAF, #AmMAHERICA BOA, FREER; MR LFR<SeqNum<LAF, Jf 
么 帧 在 接收 方 窗口 内 ， 于 是 接收 。 现 在 接收 方 需要 决定 是 否 发 送 ACK, 4 SeqNumTo- 
”ACK 表示 未 被 确认 帧 的 最 大 序号 ， 这 样 序号 小 于 等 于 SeqNumToACK 的 帧 都 已 收 到 。 即 
使 已 经 收 到 更 高 序号 的 分 组 ， 接 收 方 仍 确认 SeqNumToACK 的 接收 。 这 种 确认 是 累积 也 
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然后 ， 设 LFR=SeqNumToACK, 3A% LAF=LFR+RWS, 3 

Glin, fue LFR=5 (〈 即 上 次 接收 方 发 送 的 ACK 是 为 了 确认 序号 5 的 ) 并 日 RWS= 
4。 这 意味 着 LAF=9, Ww 7 7 和 帧 8 到 达 ， 则 把 它们 存 人 缓冲 区 ， 因 为 它们 在 接收 方 窗 
口内 。 然 而 并 不 需要 发 送 ACK， 因 为 帧 6 还 没有 到 达 。 帧 7 和 帧 8 被 称 为 是 错 序 到 达 的 。 
(从 技术 上 讲 ， 接 收 方 可 以 在 帧 7 AIT 8 到 达 时 重 发 帧 5 的 ACK.) 如 果 帧 6 当时 到 达 了 
(或 许 它 因 第 一 次 丢失 后 必须 重 传 而 晚 到 ， 或 许 它 只 是 被 延迟 了 )， 接 收 方 确认 帧 8，LFR 
变 为 8，LAF 置 为 12。 如 果 事 实 上 帧 6 丢失 了 ， 则 出 现 发 送 方 超时 ， 引 发 重 传 帧 6。 

我 们 看 到 ， 当 发 生 超 时 时 ， 传 输 数 据 量 减 少 ， 因 为 发 送 方 在 帧 6 确认 之 前 不 能 向 前 移 
动 窗口 。 这 意味 着 当 分 组 丢失 时 ， 此 方案 将 不 再 保证 管道 满载 。 注 意 到 分 组 已 经 丢失 所 经 
历 的 时 间 越 长 ， 这 个 问题 越 严 重 。 

注意 ， 在 这 个 例子 中 ， 接 收 方 可 以 在 帧 7 一 到 达 就 为 帧 6 发 送 一 个 否认 应 答 (Negative 
Acknowledgment，NAK) 。 然 而 ， 由 于 发 送 方 的 超时 机 制 足以 发 现 这 种 情况 ， 所 以 发 送 NAK 
反而 为 接收 方 增加 了 复杂 性 ， 因 此 不 必 这 样 做 。 同 时 ， 正 如 之 前 已 提 到 的 ， 当 帧 7 和 帧 8 到 
达 时 ， 为 帧 5 发 送 一 个 额外 的 ACK 是 合理 的 。 在 某 些 情况 下 ， 发 送 方 可 以 使 用 重复 的 ACK 
作为 帧 丢失 的 线索 。 这 两 种 方法 都 考虑 到 尽早 检测 分 组 的 丢失 ， 有 助 于 改进 性 能 。 

关于 这 个 方案 的 男 一 个 变种 是 使 用 选择 确认 (selective acknowledgments), RELL, 
接收 方 能 够 准确 地 确认 那些 已 收 到 的 帧 ， 而 不 只 是 确认 按 顺 序 收 到 最 高 序号 的 帧 。 因 此 ， 
在 上 例 中 ， 接 收 方 能 够 确认 帧 7、 帧 8 的 接收 。 如 果 给 发 送 方 更 多 的 信息 ， 就 能 使 其 较 容 
易 地 保持 管道 满载 ,但 增加 了 实现 的 复杂 性 。 | 

发 送 和 窗口 大 小 是 根据 一 段 给 定时 间 内 链 路 上 有 多 少 待 传输 的 帧 来 选择 的 ， 对 于 给 定 的 
延迟 带宽 积 ，SWS 是 容易 计算 的 。 另 一 方面 ， 接 收 方 可 以 将 RWS 设置 为 任何 想 要 的 值 。 
通常 的 两 种 设置 是 ，RWS 二 1， 表 示 接 收 方 不 缓存 任何 错 序 到 达 的 帧 ;RWS 二 SWS， 表 示 
接收 方 能 够 缓存 发 送 方 传输 的 任何 帧 。 由 于 错 序 到 达 帧 的 数目 不 可 能 超过 SWS， 所 以 设 
置 RWS > SWS 没有 意义 。 

2. 有 限 序号 和 滑动 窗口 
现在 讨论 引入 算法 中 做 过 的 一 个 简化 ， 即 假设 序号 是 可 以 无 限 增 大 的 。 当 然 ， 实 际 上 
是 在 大 小 有 限 的 首部 字段 中 说 明 帧 的 序号 。 例 如 ， 一 个 3 比特 字段 意味 着 有 8 个 可 用 序号 
(0~7)。 因 此 序号 必须 可 重用 ,或 者 说 序号 能 回 绕 。 这 就 带 来 了 一 个 问题 ， 要 能 够 区 别 同 
一 序号 体现 的 不 同 帧 ， 这 意味 着 可 用 序号 的 数目 必须 大 于 所 人 允许 的 待 确认 帧 的 数目 。 例 
如 ， 停 止 -等 待 算法 允许 一 次 有 一 个 待 确认 帧 ， 并 有 两 个 不 同 的 序号 。 

”假设 序号 空间 中 的 序号 数 比 待 确认 的 帧 数 大 1， 即 SWS<MaxSeqNum—1, HP 
MaxSeqNum 是 可 用 序号 数 。 这 就 够 了 吗 ? 管 案 取 决 于 RWS., WR RWS=1, #4 Max- 
SeqNum 宇 SWS 十 1 就 足够 了 。 如 果 RWS=SWS， 那 么 有 一 个 只 比 发 送 窗口 尺寸 大 1 的 
MaxSeqNum 是 不 够 的 。 为 清楚 这 一 点 ， 考 虑 有 8 个 序号 0 一 7 的 情况 ， 并 且 SWS= 
RWS=7。 假 设 发 送 方 传输 帧 0 一 6 ， 并 且 接 收 方 成 功 接收 ， 但 ACK 丢失 。 接 收 方 现在 和 硕 
望 接收 帧 7 AWE 0~5， 但 发 送 方 超时 并 发 送 巾 0 一 6。 不幸 的 是 ， 接 收 方 期 待 的 是 第 二 次 
的 帧 0 一 5， 得 到 的 却 是 第 一 次 的 帧 0~5。 这 正 是 我 们 想 避 免 的 情况 。 

事实 是 ， 当 RWS=SWS 时 ， 发 送 窗 口 的 大 小 不 能 大 于 可 用 序号 数 的 一 半 ， 或 更 准确 地 说 ， 

SWS<(MaxSeqgNum+1)/2 
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直观 上 ， 这 说 明 请 动 窗口 协议 是 在 序号 空间 的 两 半 之 间 交 蔡 ， 就 像 停 止 -等 竺 协议 的 序号 
是 在 0 和 1 之 间 交 替 一 样 。 它 们 之 间 唯 一 的 区 别 是 ， 滑 动 窗口 协议 在 序号 空间 的 两 半 之 间 
连续 滑动 而 不 是 离散 的 变换 。 | 

注意 ， 这 条 规则 是 特别 针对 了 WS=SWS 的 。 我 们 把 确定 适用 于 RWS 和 SWS 的 任意 
值 的 更 一 般 的 规则 留 作 习题 。 还 要 注意 ， 窗 口 的 大 小 和 序号 空间 之 间 的 关系 依赖 于 一 个 很 
明显 以 至 于 容易 被 忽略 的 假设 ， 即 帧 在 传输 中 不 重新 排序 。 因 为 在 直接 的 点 到 点 链 路 上 ， 
一 个 帧 不 可 能 赶 上 另 一 个 帧 。 然 而 ， 我 们 将 在 第 5 章 看 到 用 在 一 个 不 同 环境 中 的 滑动 窗口 
算法 ， 并 且 需 要 设计 另 一 条 规则 。 

3. 滑动 窗口 的 实现 | 

前 面 的 例 程 说 明 如 何 实现 滑动 窗口 算法 的 发 送 和 接收 。 例 程 取 自 一 个 正在 使 用 的 协 
议 ， 即 滑动 窗口 协议 (Sliding Window Protocol，SWP)。 只 要 不 涉及 协议 图 中 的 邻近 协 
议 ， 我 们 就 用 高 层 协议 (High-Level Protocol, HLP) 表示 SWP 上 层 的 协议 ， 用 链 路 层 
协议 CLink-Level Protocol, LLP) 表示 SWP 下 层 的 协议 。 

我 们 从 定义 一 对 数据 结构 开始 。 首 先 ， 帧 首部 非常 简单 ; 它 包含 一 个 序号 (SeqNum) 
和 一 个 确认 号 (AckNum); 还 包含 一 个 标志 (Flags) 字段 ， 表 明 帧 是 一 个 ACK 帧 还 是 
携带 数据 的 帧 。 


typedef u_char SwpSeqno; 


typedef struct { . 
SwpSeqno SeqNum; /x sequence number of this frame */ 


SwpSeqno  AckNum; /x ack of received frame 大 / 
u_char Flags; /x up to 8 bits worth of flags */ 
} SwpHdr; 


其 次 ,滑动 窗口 算法 的 状态 有 如 下 结构 。 对 于 协议 的 发 送 方 ， 这 个 状态 包括 本 节 前 面 
所 述 的 变量 LAR 和 LFS， 以 及 一 个 存放 已 传 出 但 尚未 确认 的 帧 的 队列 (sendQ)。 发 送 方 
状态 还 包含 一 个 计数 信号 量 (counting semaphore)， 称 为 sendWindowNotFull, 下 面 将 介 
绍 如 何 使 用 它 。 但 一 般 来 说 ， 信 号 量 是 一 个 支持 semWait 和 semSignal 操作 的 同步 原 语 。 
每 次 调用 SemSignal 操作 ， 信 号 量 加 1; 每 次 调用 SemWait 操作 ， 信 和 号 量 减 1。 如 果 信 号 
量 减 小 ， 导 致 它 的 值 小 于 0， 那 么 调用 进程 阻塞 〈 挂 起 ) 。 只 要 执行 了 足够 的 semSignal 操 
作 而 使 信号 量 的 值 增 大 到 大 于 0， 就 允许 恢复 在 调用 semWait 的 过 程 中 阻塞 的 进程 。 

对 于 协议 的 接收 方 ， 状 态 包含 变量 NFE。 这 是 下 一 个 希望 接收 的 帧 (next frame ex- 
pected) ， 正 如 本 节 前 面 所 述 ， 其 序号 比 最 后 接收 的 帧 (FR) 的 序号 大 1。 还 有 一 个 存放 
已 收 到 的 销 序 帧 的 队列 〈recvQ) 。 最 后 ， 虽 然 未 显示 ， 但 发 送 方 和 接收 方 的 滑动 窗口 的 大 
小 分 别 由 和 常量 SWS Fl RWS 表示 。 . 


typedef struct { l 
/* sender side state: x/ 


SwpSeqno LAR; /x seqno of last ACK 
received x/ 

SwpSeqno eos /x last frame sent x*/ 

Semaphore sendWindowNotFull; 

SwpHdr hdr; /* pre-initialized header x/ 


struct sendQ_slot { 
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Event timeout; /x event associated with send 
-timeout */ 
Msg msg; 
}  sendQ[Sws]; 


/x receiver side state: */ 

Swpseqno NFE: /x seqno of next frame 
expected */ 

struct recvû_slot { 


int received; /x is msg valid? */ 
Msg msgs; 
} recvû[RWS]; 
} SwpState; 


SWP 的 发 送 端 是 由 sendSWP 过 程 实现 的 ， 这 个 例 程 比较 简单 。 首 先 ，sem Wait 使 这 
个 进程 在 一 个 信号 量 上 阻 寒 ， 直 到 它 可 以 发 送 男 一 帧 。 一 旦 允许 开始 发 送 ，sendSWP i 
置 帧 首部 中 的 序号 ， 将 此 帧 的 副本 存储 在 发 送 队 列 (senda) 中 ， 调 度 一 个 超时 事件 以 便 
处 理 帧 未 被 确 认 的 情况 ， 并 将 帧 发 送 给 称 作 LINK 的 下 层 协 议 。 

值得 注意 的 一 个 细节 是 恰巧 在 调用 msgAddHdr 之 前 调用 store_swp_hdr。 该 例 程 将 
存 有 SWP 首部 的 C 语言 结构 (state—>hdr) 转化 为 能 够 安全 放 在 消息 前 面 的 字 节 串 
(hbuf) 。 这 个 例 程 〈 未 显示 ) 必须 将 首部 中 的 每 个 整数 字段 转化 为 网 络 字 厄 顺 序 ， 并 且 去 
掉 编译 程序 加 入 C 语言 结构 中 的 任意 填充 。7. 1 节 将 详细 讨论 字 节 顺序 的 问题 ， 但 现在 ， 
假设 这 个 例 程 将 多 字 整 数 中 的 最 高 有 效 位 放 在 最 高 地 址 字 市 就 足够 了 。 

这 个 例 程 的 另 一 个 复杂 性 是 使 用 semWait 和 sendWindowNotFull 信号 量 。sendWin- 
dowNotFull 被 初始 化 为 发 送 方 滑动 窗口 的 大 小 SWS (未 显示 这 一 初始 化 )。 发 送 方 每 传输 
一 帧 ，semWait 操作 将 这 个 数 减 1， 如 果 减 小 到 0， 则 阻塞 发 送 方 进程 。 每 收 到 一 个 
ACK, 在 deliverSWP 中 调用 semSignal 操作 〈 如 下 所 示 ) 将 此 数 加 1， 从 而 解除 等 竺 中 的 
发 送 方 进程 的 阻塞 。 

static int 


sendSWP (SwpState xstate, Msg *frame) 
{ 


struct sendQ_slot xslot: 
hbuf LHLEN]; 


/x wait for send window to open x/ 
semWait(&state->sendWindowNotFull); 
state->hdr.SeqNum = ++state->LFS; 
slot = &state->sendQ[state->hdr.SeqNum % SWS]; 
store_swp_hdr(state->hdr, hbuf); 
msgAddHdr( frame, hbuf, HLEN); 
msgSaveCopy(&slot->msg, frame); 
Slot->timeout = evSchedule(swpTimeout, slot, 
SWP_SEND_TIMEOUT); 

return send(LINK, frame); 

} 


在 到 达 SWP 的 接收 端 之 前 ， 需 要 协调 一 下 表面 的 不 一 致 。 一 方面 ， 我 们 一 直 声 称 高 
层 协议 通过 调用 send 操作 实现 对 低层 协议 服务 的 调用 。 因 此 期 望 通过 SWP 发 送 消 息 的 协 
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议 将 会 调用 send (SWP，packet)。 男 一 方面 ， ae SWP 发 送 操 作 的 过 程 是 sendSWP, 
它 的 第 一 个 参数 是 一 个 状态 变量 (SwpState)。 怎 么 进行 协调 呢 ? 答案 是 操作 系统 提供 了 
将 send 的 普通 调用 转换 成 一 个 协议 特定 的 sendSWP 调用 的 粘 合 代码 。 该 粘 合 代码 将 send 
的 第 一 个 变量 (神奇 的 协议 变量 SWP) BRIN MP Ss EP: 一 个 sendSWP 的 函数 指针 和 一 
个 SWP 工作 所 需要 的 协议 状态 指针 。 我 们 让 高 层 协 议 不 直接 通过 普通 的 函数 调用 实现 协 
议 特 定 的 函数 调用 的 原因 是 想 限制 高 层 协 议 对 低层 协议 编码 的 信息 量 ， 这 将 使 得 以 后 改变 
协议 图 配置 变 得 容易 。 

现在 来 看 deliver 操作 的 SWP 的 特定 协议 实现 ， 它 在 过 程 deliverSWP 中 给 出 。 这 个 
例 程 实际 上 处 理 两 种 不 同类 型 的 输入 消息 : 本 市 点 先 发 出 帧 的 ACK 和 到 达 这 个 节点 的 数 
据 帧 。 在 某 种 意义 上 ， 这 个 例 程 的 ACK 部 分 是 与 sendSWP 中 所 给 算法 的 发 送 方 相对 应 
的 。 通 过 检验 首部 的 Flags 字段 可 以 确定 输入 的 消息 是 ACK 还 是 一 个 数据 帧 。 注 意 ， 这 
种 特殊 的 实现 不 支持 数据 帧 中 捐 带 ACK, 

当 输 入 帧 是 ACK 时 ，deliverSWP 仅仅 在 发 送 队 列 〈sendQ) 中 寻找 Hh ACK 相应 的 
位 置 ， 取消 超时 事件 ， 并 且 释 放 保 存在 那个 位 置 的 帧 。 由 于 ACK 可 能 是 累积 的 ， 所 以 这 
项 工作 实际 上 是 在 一 个 循环 中 进行 的 。 对 于 这 种 情况 值得 注意 的 另 一 个 问题 是 调用 子 例 程 
swpInWindow。 这 个 子 例 程 在 下 面 给 出 ， 它 确保 被 确认 帧 的 序号 是 在 发 送 方 当 前 希望 收 到 
的 ACK 的 范围 之 内 。 

当 输 入 帧 包含 数据 时 ，deliverSWP 首先 调用 msgStripHdr 和 load_swp_hdr BI 1E M it 
中 提取 出 首部 。 例 程 load_swp_hdr 对 应 于 前 面 讨论 的 store_swp_hdr， 它 将 一 个 字 节 串 
转化 为 保存 SWP 首部 的 C 语 言 数 据 结构 。 然 后 deliverSWP 调用 swpInWindow VI a FR Wi 
序号 在 期 望 的 序号 范围 内 。 如 果 是 这 样 ， 那 么 Oil Ae FE WC BI AY E Be We A SS LE , 并 

通过 调用 deliverHLP 例 程 将 它们 传 给 高 层 协议 。 它 也 要 向 发 送 方 发 回 累积 的 ACK， 但 

是 通过 接收 队列 上 的 循环 来 实现 (不 用 本 节 前 面 给 出 的 在 实际 描述 中 使 用 的 SeqNumTo- 
Ack 恋 量 ) 。 

Static Int 

deliverSWP(SwpState state, Msg xframe) 

{ 


SwpHdr hdr; 
char *hbuf; 


hbuf = msgStripHdr( frame, HLEN); 
load_swp_hdr(&hdr, hbuf) 
if Chdr->Flags & FLAG_ACK_VALID) 
{ | 
/x received an acknowledgment---do SENDER side x/ 
if CswplnWindow(hdr.AckNum, state->LAR + 1, 
state->LFS)) 
{ 
do 
{ 
Struct sendQ_slot «slot; 


Slot = &state->sendQ[++state->LAR % SWS]; 
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evCancel(slot->timeout) ; 

msgDestroy(&slot->msg); 

SemSignal(&state->sendWindowNotFull):; 
} while (state->LAR != hdr.AckNum); 


if (hdr.Flags & FLAG_HAS_DATA) 
{ 


struct recvû_slot «stot: 


/* received data packet---do RECEIVER side x/ 

Slot = &state->recvO[hdr.SeqNum % RWS]; 

if (iswpInWindow(hdr.SeqNum, state->NFE, 
State->NFE + RWS - 1)) 


/x drop the message */ 
return- SUCCESS: 
} 
msgSaveCopy(&slot->msg, frame); 
Slot->received = TRUE; 
if Chdr.SeqNum == state->NFE) 
{ 
Msg m; 


while (slot->received) 
{ 
deliver(HLP, &slot->msg); 
msgDestroy(&aslot->msg); 
slot->received = FALSE; 
Slot = &state->recvQ[++state-ONFE % RWS]; 
} 
/x send ACK: */ 
prepare_ack(&m, state->NFE - 1); 
send(LINK, &m); 
msgDestroy(&m) ; 


} 
return SUCCESS: 
} 


最 后 ，swpInWindow 是 一 个 简单 的 子 例 程 ， 它 检查 一 个 给 定 的 序号 是 否 落 在 某 个 
大 和 最 小 序号 之 间 。 

Static bool 

swoIlnWindow(SwpSeqno seqno, SwpSeqno min, SwpSeqno max) 


{ 


SwpSeqno pos, maxpos; 

pos = seqno - min; /x pos *should*x be in range [0..MAX) x/ 
maxpos = max - min + 1; /* maxpos is in range [0..MAX] x/ 
return pos < maxpos; 
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4. 帧 顺序 和 流量 控制 

滑动 窗口 协议 可 能 是 计算 机 网 络 中 最 著名 的 算法 。 然 而 ， 关 于 该 算法 易 产生 的 混淆 是 ， 
它 可 以 用 于 三 个 不 同 的 任务 ， 第 一 个 任务 是 本 节 的 重点 ， 即 在 不 可 靠 链 路 上 可 靠 地 传输 帧 。 
(一 般 说 来 ， 该 算法 被 用 于 在 一 个 不 可 靠 的 网 络 上 可 靠 地 传输 消息 。) 这 是 算法 的 核心 功能 。 

滑动 窗口 算法 的 第 二 个 任务 是 用 于 保持 帧 的 传输 顺序 。 这 在 接收 方 比较 容易 实现 ， 因 
为 每 个 帧 有 一 个 序号 ， 接 收 方 只 要 保证 在 它 已 经 向 下 一 个 高 层 协 议 传 递 所 有 序号 比 当 前 帧 
序号 小 的 帧 之 前 ， 不 向 上 传送 帧 。 就 是 说 ， 接 收 方 缓存 〈 即 不 传送 ) 错 序 的 帧 。 尽 管 我 们 
也 可 以 想象 男 一 个 版 本 ， 即 接收 方 将 帧 传 给 下 一 个 协议 而 不 等 待 先前 传送 的 所 有 帧 都 到 
达 ， 但 是 本 节 描 述 的 滑动 窗口 算法 版 本 采用 的 方法 是 保持 帧 的 顺序 。 我 们 应 该 问 目 己 的 一 
个 问题 是 ， 是 否 确 实 需要 滑动 窗口 协议 来 保持 帧 的 顺序 ， 或 者 说 ， 在 链 路 层 实现 这 样 的 功 
能 是 否 是 不 必要 的 。 不 幸 的 是 ， 目 前 我 们 对 网 络 体系 结构 的 了 解 还 不 足以 回答 这 个 问题 。 
我 们 首先 需要 理解 的 是 ， 点 到 点 链 路 序列 如 何 由 交换 机 连接 成 一 条 端 到 端的 路 径 。 

滑动 窗口 算法 的 第 三 个 任务 是 ， 它 有 时 支持 流量 控制 (flow control)。 这 是 一 种 接收 
方 能 够 控制 发 送 方 的 反馈 机 制 ， 用 于 抑制 发 送 方 发 送 速 度 过 快 ， 即 抑制 传输 比 接 收 方 所 能 
处 理 的 更 多 的 数据 。 这 通常 通过 扩展 滑动 窗口 协议 来 完成 ， 使 接收 方 不 仅 确认 收 到 的 巾 ， 
而 且 通 知 发 送 方 它 还 可 接收 多 少 帧 。 可 接收 的 帧 数 对 应 于 接收 方 有 多 大 的 空闲 缓冲 区 罕 
闻 。 在 按 序 传 递 的 情况 下 ， 在 将 流量 控制 并 人 滑动 窗口 协议 之 前 ， 我 们 应 该 确信 流量 控制 
在 链 路 层 是 必要 的 。 | 

结论 ”尚未 讨论 的 一 个 重要 概念 是 系统 设计 原理 ， 我 们 称 之 为 相关 性 分 离 (sep- 

aration of concefns) 。 即 必须 仔细 区 别 有 时 交织 在 一 种 机 制 中 的 不 同 功能 ， 并 且 

必须 确信 每 一 个 功能 都 是 必需 的 ， 而 且 是 以 最 有 效 的 方式 得 到 支持 。 在 这 种 特定 

的 情况 下 ， 可 靠 传 输 、 按 序 传输 和 流量 控制 有 时 组 合 在 一 个 滑动 窗口 协议 里 ， 我 

们 应 该 反思 ， 在 链 路 层 这 样 做 是 否 正确 。 带 着 这 样 的 疑问 ， 我 们 将 在 第 3 章 Cit 

明 X. 25 网 络 如 何 用 它 实现 跳 到 跳 的 流量 控制 ) 和 第 .5 章 GR TCP 如 何 用 它 实 

现 可 靠 的 字 节 流 信 道 ) 重新 探讨 滑动 窗口 算法 。 
2.5.3 并 发 逻辑 信道 

用 在 ARPANET 网 中 的 数据 链 路 协议 为 滑动 窗口 协议 提供 了 一 种 有 趣 的 变换 ， 虽 然 
它 仍 采用 简单 的 停止 -等 待 算法 ， 但 它 能 保持 管道 满载 。 这 种 方法 的 一 个 重要 结果 是 ， 在 
一 个 给 定 链 路 上 传输 的 帧 并 不 保持 任何 特定 的 顺序 ， 该 协议 也 没有 流量 控制 。 

我 们 称 为 并 发 逻辑 信道 (concurrent logical channel) 的 ARPANET 协议 的 基本 思想 
征 ， 在 一 个 点 到 点 链 路 上 多 路 复 用 多 个 逻辑 信道 ， 并 且 在 每 个 逻辑 信道 上 运行 停止 -等 等 
算法 。 在 任意 逻辑 信道 上 传输 的 帧 之 间 没 有 任何 关系 ， 同 时 因为 在 每 个 逻辑 信道 上 可 以 有 
一 个 不 同 的 符 确 认 帧 ， 所 以 发 送 方 可 保持 链 路 满载 。 

更 准确 地 说 ， 发 送 方 为 每 一 信道 状态 留 有 3 个 比特 : 一 个 布尔 量 , 说 明 信 道 当前 是 否 
处 于 忙碌 状态 ;1 比特 序号 ， 说 明 下 次 在 这 个 逻辑 信道 上 发 送 的 帧 的 序号 ;以 及 下 一 帧 的 
序号 ， 说 明 期 望 到 达 这 一 信道 的 帧 的 序号 。 当 节点 有 一 个 帧 要 发 送 时 ， 它 使 用 序号 最 小 的 
空闲 信道 ， 而 其 他 方面 它 的 表现 就 像 停 止 -等 待 一 样 。 

实际 上 ，ARPANET 网 在 每 个 地 面 链 路 上 支持 8 个 逻辑 信道 ， 在 每 个 卫星 链 路 上 支持 16 
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个 逻辑 信道 。 在 地 面 链 路 中 ， 每 帧 的 首部 包含 了 3 比特 的 信道 号 和 1 比特 的 序号 ， 总 共 4 比 
竺 。 当 RWS=SWS 时 ， 这 恰 是 滑动 窗口 协议 在 链 路 上 最 多 支持 8 个 待 确认 帧 所 需 的 比特 数 。 


2.6 以 大 网 和 多 路 访问 网 络 (802. 3) © 


毫 无 疑问 ， 以 太 网 是 最 近 20 年 中 最 成 功 的 局 域 网 技术 。 它 是 20 世纪 70 年 代 中 期 由 
施乐 公司 的 帕 洛 阿尔 托 研究 中 心 (PARC) 开发 的 。 以 太 网 是 一 个 正在 使 用 的 、 更 通用 的 
带 冲 突 检测 的 载波 监听 多 路 访问 (CSMA/CD) 局 域 网 技术 的 例子 。 

正如 CSMA 的 名 字 所 表明 的 ， 以 太 网 是 一 个 多 路 访问 网 络 ， 即 一 组 节点 通过 一 个 共享 链 
路 发 送 和 接收 帧 。 因 此 你 可 以 把 以 太 网 想象 成 一 辆 公共 汽车 ， 可 以 从 多 个 站 点 进入 。 在 CS- 
MA/CD 中 ,“ 载 波 监听 ”意味 着 所 有 节点 可 识别 链 路 的 忙 或 闲 , “冲突 检测 ”意味 着 当 一 个 节 
点 传输 时 要 监听 线路 ， 因 此 可 以 检测 到 正在 传输 的 帧 与 男 一 节点 传输 的 帧 发 生 干 扰 (冲突 )。 

以 太 网 可 以 追溯 到 早期 由 夏威夷 大 学 开发 的 一 个 分 组 无 线 网 一 一 Aloha， 它 支持 横 跨 
夏威夷 岛 的 计算 机 通信 。 像 Aloha 网 一 样 ， 以 太 网 所 面临 的 主要 问题 是 如 何 调解 对 一 个 共 
享 介质 的 公平 而 有 效 的 访问 (在 Aloha 中 ， 介 质 是 空气 ， 而 在 以 太 网 中 ， 介 质 是 一 条 同 轴 
电缆 ) 。 也 就 是 说 ，Aloha 和 以 太 网 的 中 心思 想 是 一 个 控制 每 个 节点 何 时 能 传输 的 算法 。 

有 趣 的 是 ， 当 今 的 以 太 网 链 路 主要 是 点 对 点 形式 的 ， 将 主机 连接 到 以 太 网 交换 机 ， 或 
者 交换 机 之 间 互 相连 接 。 因 此 , “多 路 访问 技术 ”在 今天 的 以 太 网 中 没有 使 用 。 同 时 ， 无 
线 网 络 越 来 越 流 行 ， 因 此 起 源 于 Aloha 的 多 路 访问 技术 当前 被 广泛 用 于 无 线 网 络 中 ， 例 如 
802.11 (Wi-Fi) 网 络 。 这 些 网 络 将 在 2.7 WERT. 

下 一 章 中 将 介绍 以 太 网 交换 技术 。 现 在 ， 我 们 关注 一 条 以 太 网 链 路 如 何 工 作 ， 多 路 访 
问 以 太 网 正在 成 为 历史 ， 多 路 访问 网 络 的 机 制 对 于 进一步 的 讨论 非常 重要 ， 下 面 会 介绍 。 

1978 年 ， 数 字 设 备 公 司 (DEC MERR Ante) 公司 联合 施乐 (Xerox) 公司 定义 
了 10Mbps 以 太 网 标准 。 这 个 标准 后 来 成 为 IEEE 标准 802.3 的 基础 ， 它 定义 了 以 太 网 采 
用 的 物理 介质 的 标准 ， 包 括 100Mbps、1Gbps 和 10Gbps 的 版 本 。 





2.6.1 物理 特性 


以 太 网 段 是 在 长 度 最 高 可 达 500m 的 同 轴 电 缆 上 实现 的 《〈 现 在 的 以 太 网 使 用 双 绞 线 ， 
通常 使 用 “5 类 ” 线 或 光纤 ， 有 时 一 个 网 段 的 长 度 可 超过 500m) 。 这 个 电缆 类 似 于 有 线 电 
视 所 用 的 电缆 类 型 。 主 机 通过 分 接头 连接 到 以 太 网 段 上 。 
收发 器 (transceiver) 是 一 种 直接 连接 到 分 接头 的 设备 ， 
它 检测 线路 何 时 空闲 ， 并 在 主机 发 送 时 驱动 信号 。 它 也 
fei Mas. WAAR Maat, mE Bc a 
是 插 在 主机 上 的 。 这 种 配置 如 图 2-22 所 示 。 

多 个 以 太 网 段 可 由 中 继 器 (repeater) 连接 起 来 。 中 
继 器 是 一 个 转发 数字 信和 号 的 设备 ， 很 像 转发 模拟 信号 的 
放大 器 。 中 继 器 只 理解 比特 而 不 理解 帧 。 然 而 ， 在 任 一 
对 主机 之 间 最 多 可 以 安装 四 个 中 继 器 ， 这 意味 着 典型 的 | 
以 太 网 总 共 只 能 达到 2 500m。 例 如 ， 在 任 一 对 主机 间 愉 图 2-22 以 太 网 收发 器 和 适配器 





66 | ELF 


使 用 两 个 中 继 器 支持 类 似 于 图 2-23 的 配置 ， 即 建筑 物 垂直 方向 有 一 个 主干 网 段 ， 同 时 每 
层 楼 一 个 网 段 。 

我 们 也 可 以 使 用 多 口 的 中 继 器 ， 有 时 称 为 集线器 (hub)， 如 图 2-24 所 示 。 对 于 从 集 
线 器 的 某 个 端口 输入 的 信号 ， 它 将 向 其 各 个 端口 转发 。 





ELE 


图 2-23 以太 网 中 继 器 图 2-24 以 太 网 集线器 


主机 送 到 以 太 网 上 的 任何 信号 都 是 向 全 网 广播 的 ， 即 信和 号 在 两 个 方向 传播 ， 并 由 中 继 
器 或 集线器 将 信号 转发 到 所 有 输出 网 段 。 连 到 每 一 网 段 末 端的 终结 器 吸收 信号 并 阻止 它 反 
射 和 干扰 后 续 信 号 。 原 先 的 以 太 网 使 用 2. 2 节 描 述 的 曼彻斯特 编码 方案 ， 而 今天 的 高 速 以 
太 网 使 用 4B/5B 编码 方案 或 类 似 的 8B/10B 编码 方案 。 

了 解 下 面 一 点 是 很 重要 的 : 不 管 一 个 给 定 的 以 太 网 是 只 跨越 一 个 网 段 ， 还 是 由 中 继 器 
a ee i an 
太 网 上 任意 一 台 主 机 传输 的 数据 都 能 够 到 达 所 有 其 他 主机 。 这 是 好 的 一 面 ， 而 不 好 的 一 面 
是 ， 所 有 主机 竞争 访问 同一 条 链 路 ， 结 果 人 处 在 同一 个 冲突 域 (collision domain) 中 。 以 太 
网 的 多 路 访问 协议 需要 处 理 冲突 域 中 链 路 的 竞争 问题 。 


2.6.2 访问 协议 


现在 把 注意 力 转向 控制 访问 共享 以 太 网 链 路 的 算法 ， 这 种 算法 一 般 称 为 以 太 网 的 介质 
访问 控制 (Media Access Control，MAC)， 通 常 在 网 络 适 配 姻 上 以 硬件 方式 实现 。 我 们 并 
不 描述 硬件 本 身 ， 而 是 考虑 它 实 现 的 算法 。 下 面 首先 描述 以 太 网 的 帧 格式 和 地 址 。 

1. 帧 格式 

以 太 网 帧 格式 如 图 2- 25 所 示 。64 位 的 Preamble (前 同步 码 ) 允许 接收 方 与 信号 同 
步 ， 它 是 一 个 0 与 1 的 交替 序列 ， 各 用 一 个 48 位 的 地 址 标识 源 主 机 和 目的 主机 。 分 组 
Type (KAD) 字段 用 作 多 路 分 解密 铀 ， 即 标识 应 该 将 这 个 帧 传递 给 哪 一 个 高 层 协议 。 每 帧 
最 多 包含 1500 TMi, BAA 46 字 节 数据 ， 即 使 这 意味 着 主机 在 传 帧 之 前 必须 对 它 
进行 填充 。 规 定 最 小 帧 长 度 是 因为 帧 必须 足够 长 才 可 能 检测 到 冲突 ， 下 面 将 详细 讨论 这 一 
点 。 最后， 每 一 帧 包含 一 个 32 位 的 CRC。 像 2. 3. 2 节 中 描述 的 HDLC 协议 一 样 ， 以 太 网 
“是 一 个 面向 比特 的 组 帧 协议 。 注 意 ， 从 主机 的 角度 看 ， 以 太 网 帧 有 一 个 14 字 节 的 首部 : 
两 个 6 字 节 的 地 址 和 一 个 2 字 节 的 类 型 字段 。 人 CRC 
和 后 同步 码 ， 接 收 方 适 配器 再 去 掉 它 们 。 
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图 2-25 ”以 太 网 帧 格式 


2. 地 址 
”以 太 网 上 的 每 台 主机 一 一 实际 上 世界 上 每 个 以 太 网 的 每 台 主机 一 一 都 有 一 个 唯一 的 以 
太 网 地 址 。 从 技术 上 讲 ， 地 址 属于 适配器 而 不 是 主机 ， 通 常 固化 在 ROM 中 。 以 太 网 地 址 
以 可 读 的 方式 显示 ， 即 由 冒号 分 隔 的 6 个 数 。 每 个 数 对 应 于 6 字 节 地 址 的 1 个 字 节 ， 并 且 
由 一 对 16 进 制 数 给 出 ， 每 个 16 进 制 数 对 应 4 比特 ， 而 且 去 掉 前 导 0。 例 如 ，8;0;2b:e4; 
bl:2 是 一 个 可 读 的 以 太 网 地 址 ， 表 示 为 
00001000 00000000 00101011 11100100 10110001 00000010 

为 了 保证 每 个 适配器 得 到 一 个 唯一 的 地 址 ， 需 要 对 每 个 以 太 网 设备 制造 商 分 配 一 个 不 
同 的 前 经， 这 个 前 缀 必须 加 到 他 们 制造 的 每 一 个 适配器 的 地 址 上 。 例 如 ， 先 进 设备 公司 
(AMD) 分 配 到 的 24 位 的 前 缀 是 x080020 (或 8:0:20)。 然 后 ， 制 造 商 必须 保证 其 生产 的 
加 上 后 缀 的 地 址 是 唯一 的 。 | 

在 以 太 网 上 传输 的 每 一 帧 可 由 连 到 以 太 网 上 的 所 有 适配器 接收 到 。 每 个 适配器 将 这 些 
帧 的 地 址 与 自己 的 地 址 比较 ， 仅 向 主机 传递 发 送 给 自己 的 帧 。 (可 对 一 个 适配器 编程 ， 使 
其 以 混杂 (promiscuous) 模式 运行 ， 在 这 种 情况 下 ， 它 向 主机 传递 所 有 收 到 的 帧 ， 但 这 
不 是 常规 模式 .) 除了 这 些 单 播 (unicast) 地 址 外 ， 一 个 由 全 1 构成 的 以 太 网 地 址 表示 一 
个 广播 (broadcast) 地 址 ， 所 有 的 适配器 向 主机 传递 具有 广播 地 址 的 帧 。 类 似 地 ， 所 有 第 
一 位 为 1 但 不 是 广播 地 址 的 地 址 称 为 多 播 (multicast) 地 址 。 一 台 给 定 的 主机 可 对 它 的 适 
配器 编程 以 接收 多 播 地 址 的 某 个 集合 。 多 播 地 址 用 于 向 以 太 网 上 某 台 主机 的 子 集 传送 消息 
(例如 所 有 文件 服务 器 )。 总 之 ,一 个 以 太 网 适配器 接收 所 有 帧 ， 并 且 接 收 : 

。 编 址 为 它 自己 地 址 的 帧 。 

。 编 址 为 广播 地 址 的 帧 。 

。 编 址 为 多 播 地 址 的 帧 ， 如 果 适 配器 在 监听 那个 地 址 。 

。 所 有 帧 ， 如 果 适 配器 处 于 混杂 模式 。 

以 太 网 适配器 只 向 主机 传递 它 接收 到 的 帧 。 

3. 发 送 器 算法 

正如 我 们 已 看 到 的 ， 在 以 太 网 协议 中 ， 接 收 方 一 边 是 简单 的 ， 真 正 的 难点 是 在 发 送 方 
一 边 实现 的 ， 发 送 器 算法 定义 如 下 。 | 

当 适 配器 有 一 帧 要 发 送 并 且 线路 空闲 时 ， 它 立即 发 送 这 一 帧 ， 不 存在 与 其 他 适配器 协 
商 的 问题 。 消 息 中 1 500 字 节 的 上 界 意味 着 适配器 只 能 以 一 段 定 长 时 间 占 用 线路 。 

当 适 配器 有 一 帧 要 发 送 并 且 线 路 忙 时 ， 则 等 待 线路 空闲 ， 然 后 立即 发 送 。.9 因为 要 发 送 
帧 的 适配器 无 论 线路 何 时 空闲 ， 都 以 概率 1 发 送 ， 因 此 称 以 太 网 是 1- 坚持 〈1-persistant) th 
W. HRY, EA Cp-persistant) 的 算法 在 线路 变 为 空闲 时 ， 以 概率 OS p<] RIK, FF 
以 概率 q=1—p 推迟 发 送 。 选 p 二 1 的 原因 是 ， 可 能 有 多 个 适配器 在 等 待 线路 成 为 空闲 ， 


O 更 准确 地 说 ， 在 一 帧 结束 后 开始 传输 下 一 帧 之 前 ， 所 有 适配器 都 会 等 待 9. bus。 对 于 第 一 帧 的 发 送 方 和 正在 监听 
以 等 待 线路 变 为 空闲 状态 的 节点 而 言 均 是 如 此 。 | 


= HLF 


我 们 不 想 让 它们 同时 开始 发 送 。 比 如 ， 如 果 每 一 个 适配器 都 以 概率 33% 立 即 发 送 ， 那么 最 
多 有 三 个 适配器 在 等 待 发 送 ， 但 线路 空闲 时 将 只 有 一 个 适配器 开始 发 送 。 尽 管 如 此 ， 以 太 
网 适配器 在 看 到 网 络 变 为 空闲 时 总 是 立即 发 送 的 ， 而 且 这 样 做 效率 很 高 。 

对 于 2<1 时 的 刀 坚 持 协 议 的 完整 细节 ， 你 可 能 想 知道 搓 硬 币 输 掉 〈 即 决定 推迟 ) 的 
发 送 方 在 能 够 发 送 之 前 需要 等 待 多 久 。 最 先 开发 这 种 类 型 协议 的 Aloha 网 的 答案 是 ， 将 时 
间 分 成 离散 的 时 间 片 ， 每 个 时 间 片 对 应 于 传输 一 个 完整 帧 所 用 的 时 间 。 只 要 节点 有 一 帧 要 
发 送 ， 并 且 监 听 到 一 个 空 (空闲) 的 时 间 片 ， 它 就 以 概率 p 传输 ， 或 以 概率 q=p—1 推迟 
到 下 一 个 时 间 片 。 如 果 下 一 个 时 间 片 也 是 空 的 ， 那么 节点 再 次 分 别 以 概率 p 和 4g 决定 传输 
或 推迟 。 如 果 下 一 个 时 间 片 不 是 空 的 ， 即 另外 某 个 站 已 决定 传输 ， 那 么 该 节点 则 需 等 待 下 
一 个 空闲 时 间 片 并 重复 算法 。 

回 到 以 太 网 的 讨论 ， 因 为 不 存在 中 央 控 制 ， 所 以 可 能 有 两 个 (或 更 多 ) 适配器 同时 开 
始 传 输 ， 或 是 因为 两 者 都 发 现 线路 空闲 或 两 者 都 在 等 待 线路 变 空闲 。 当 这 种 情况 发 生 时 ， 
称 为 两 个 (或 更 多 ) 帧 在 网 上 冲突 (collide)。 因 为 以 太 网 支持 冲突 检测 ， 所 以 每 个 发 送 
方 能 确定 冲突 的 发 生 。 当 适配器 检测 出 自己 的 帧 与 其 他 帧 冲突 时 ， 它 首先 确保 传输 32 位 
干扰 序列 ， 然 后 停止 传输 。 因 此 ， 发 送 器 在 冲突 的 情况 下 将 最 少 发 送 96 位 ，64 位 前 同步 
码 加 32 位 干扰 序列 。 

适配器 只 发 送 96 位 〈 有 时 称 为 残缺 帧 Cunt frame)) 的 一 种 情形 是 ， 两 台 主机 彼此 
接近 。 如 果 两 台 主 机 相距 较 远 ， 那 么 在 检测 到 冲突 之 前 ， 它 们 不 得 不 传输 较 长 时 间 ， 因 而 
要 发 送 更 多 的 位 。 事 实 上 ， 当 两 台 主 机 处 于 以 太 网 的 两 个 相对 端点 时 ， 就 会 出 现 最 坏 的 情 
况 。 为 了 确切 知道 刚刚 发 送 的 帧 没有 与 其 他 帧 冲突 ， 发 送 器 可 能 需要 发 送 512 位 。 这 并 不 
是 巧合 ， 每 个 以 太 网 帧 的 长 度 必 须 至 少 为 512 位 〈64 FF): 14 字 节 的 首部 加 上 46 字 节 
的 数据 加 上 4 字 节 的 CRC, | 

为 什么 是 512 位 ? 答案 与 以 太 网 的 另 一 个 邻 人 困惑 
的 问题 有 关 ， 为 什么 它 的 长 度 仅 限制 在 2 500m? 为 什 
么 不 是 10km 或 1 000km? 这 两 个 问题 的 答案 都 与 下 面 
的 事实 有 关 ， 两 个 节点 相距 越 远 ， 一 个 节点 发 送 的 帧 到 
达 另 一 个 节点 的 时 间 越 长 ， 网 络 就 越 容易 在 这 段 时 间 内 
遭遇 冲突 。 

图 2-26 表明 了 最 坏 的 情形 ， 其 中 主机 A 和 主机 B 
处 于 网 络 的 相对 两 端 。 假 设 主 机 A 在 时 刻 t 开始 传输 一 
Sit, WE 2-26a 所 示 。 该 帧 到 达 主机 B 用 了 一 个 链 路 
时 延 (时 延 用 a 表示 )。 这 样 ，A 的 帧 的 第 一 个 比特 在 
时 刻 +d 到 达 B, WE 2-26b 所 示 。 假 设 主 机 A 的 帧 
到 达 前 的 一 个 时 刻 〈 即 B 仍 看 到 一 个 空闲 线路 ) ， 主 机 o) B 在 时 刻 144 开 始 传输 ， 与 A 的 帧 冲突 
B 开始 传输 它 自 己 的 帧 。B 的 帧 将 立即 与 A 的 帧 冲突 ， A B 
IFA EDL B 将 检测 到 这 一 冲突 ， 如 图 2-26c 所 示 。 如 上 
所 述 ， 主 机 B 将 发 送 32 位 的 干扰 序列 。(B 的 帧 是 一 个 
Rew.) 不 幸 的 是 ， 主 机 A 直到 B 的 帧 到 达 时 才 知 道 
发 生 了 冲突 ， 这 将 发 生 在 一 个 链 路 时 延 之 后 ， 即 在 时 刻 0 
t 十 2Xd， 如 图 2-26d 所 示 。 主 机 A 必须 继续 传输 直到 图 2-26 最 坏 的 情形 
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这 一 时 刻 才 能 检测 到 冲突。 换 名 话说， 主机 A 必须 传输 2X4a 的 时 间 以 确保 检测 到 所 有 冲 
突 。 考 虑 最 大 配置 的 以 太 网 长 度 是 2 500m， 并 且 两 台 主机 之 间 最 多 可 能 有 4 个 中 继 器 。 往 
JK HEIR FE 51. 2ps， 在 一 个 10Mbps 以 太 网 上 对 应 于 512 位 。 考 查 这 种 情况 的 另 一 种 方式 
是 ， 为 了 使 访问 算法 起 作用 ， 需 要 将 以 太 网 的 最 大 时 延 限制 为 一 个 相当 小 的 值 (例如 
ol. 2ps)。 因 此 ， 以 太 网 的 最 大 长 度 必须 是 2 500m 左右 。 

一 旦 适 配 右 检测 到 冲突 并 停止 传输 ， 它 会 等 待 一 定 的 时 间 后 再 尝试 。 在 每 次 尝试 发 
送 但 失败 后 ， 适 配器 把 等 待 时 间 加 倍 ， 然 后 再 试 。 每 次 使 重 传 尝 试 间 的 延迟 间隔 加 倍 的 
策略 ， 一 般 称 为 指数 退 避 Cexponential backoff) 技术 。 更 精确 地 说 ,适配器 首先 随机 选 
FEIER 0 或 51. 2ys。 如 果 这 次 发 送 失 败 ， 那 么 它 (随机 选择 ) 等 待 0、51. 2us, 
102. 4us 或 153. 61s 之 后 再 试 ， 这 个 时 间 即 是 &X51.2 (对 于 k= 二 0~3)。 第 3 次 冲突 之 
后 ， 它 再 随机 选择 等 待 &X51.2 (对 于 k=0~23 一 1) 。 一 般 来 讲 ， 算 法 在 0 和 22 一 1 之 
间 随 机 选择 一 个 有 并 等 等 &X51. 2ps， 其 中 是 至 今 经 历 的 冲突 次 数 。 适 配器 在 尝试 给 
定 次 数 后 将 放弃 尝试 ， 并 向 主机 报告 传输 错误 。 虽然 退 避 算法 在 上 面 的 公式 中 将 nn 定 为 
10, 但 是 适配器 通常 最 多 尝试 16 次 。 


2.6.3 以太 网 使 用 经 验 


由 于 以 太 网 已 存在 很 多 年 而 且 很 流行 ， 因 此 积累 了 大 量 的 以 太 网 使 用 经 验 。 最 重要 的 
观测 结果 之 一 是 以 太 网 在 轻 载 情况 下 工作 很 好 。 这 是 因为 在 重 载 下 〈 在 以 太 网 上 ， 通 常 超 
过 30%% 的 利用 率 就 被 认为 是 重 载 ) ， 冲 突 使 网 络 能 力 大 量 浪费 且 急 剧 下 降 。 

幸运 的 是 ， 大 部 分 以 太 网 是 在 比 标准 允许 方式 更 保守 的 方式 下 使 用 的 。 例 如 ， 大 部 分 以 
太 网 上 连接 的 主机 数 少 于 200， 远 小 于 最 大 数量 1024。( 在 第 4 章 可 能 找到 上 限 大 约 是 200 6 
主机 的 理由 。〉 类 似 地 ， 大 部 分 以 太 网 的 距离 远 小 于 2 500m， 往 返 延 迟 接近 Sus 而 不 是 
51. 2us。 另 一 个 以 太 网 的 实用 因素 是 ， 即 使 以 太 网 适配器 没有 实现 链 路 层 流量 控制 ， 主 机 通 
常会 提供 一 种 端 到 端的 流量 控制 机 制 。 因 此 ， 很 少 出 现 一 台 主机 连续 把 帧 送 到 网 上 的 情况 。 

最 后 简要 说 明 一 下 为 什么 以 太 网 如 此 成 功 ， 这 样 我 们 就 能 够 理解 以 太 网 具有 的 能 与 任 
何 试图 替代 它 的 LAN 技术 相 竞争 的 特性 。 首 先 ， 以 太 网 极 易 管理 和 维护 : 不 存在 出 故障 
的 交换 机 ， 也 没有 需要 不 断 更 新 的 路 由 选择 表 或 配置 表 ， 并 且 易 于 向 网 络 增加 一 台新 的 主 
机 。 对 管理 者 而 言 ， 很 难 想象 更 简单 的 网 络 了 。 其 次 ， 它 的 价格 低廉 ， 电 缆 便 宜 ， 唯 一 的 
其 他 成 本 是 每 台 主 机 上 的 网 络 适 配器 。 这 些 原 因 使 得 以 太 网 的 地 位 非常 牢固 ， 而 任何 试图 
取代 以 太 网 的 其 他 基于 交换 技术 的 方法 ， 都 需要 在 网 络 适配器 的 成 本 之 上 附加 额外 的 基础 构 
件 (交换 机 〉 投资 。 我 们 在 下 一 章 可 以 看 到 ， 采 用 基于 交换 技术 的 交换 式 以 太 网 成 功 取 代 了 
多 路 访问 以 太 网 ， 一 如 既往 的 易于 管理 特性 是 其 成 功 的 关键 。 | 
2.7 FR? 

无 线 网 络 技术 在 很 多 方面 与 有 线 网 络 不 同 ， 但 也 有 许多 共同 的 特性 。 在 无 线 链 路 中 ， 
比特 差错 是 必须 要 关注 的 ， 因 为 大 部 分 无 线 链 路 都 无 法 避免 噪声 环境 。 在 无 线 网 络 中 组 帧 


和 可 靠 性 也 必须 要 考虑 。 与 有 线 网 络 不 同 ， 因 为 使 用 无 线 网 络 的 通常 是 小 型 移动 设备 (如 
电话 和 传感器 )， 因 此 其 能 量 受 限 (例如 电池 容量 较 小 )。 而 且 ， 无 线 传 输 设备 的 功率 也 不 


能 太 高 ， 否 则 会 和 其 他 设备 相互 干扰 ， 因此 在 给 定 频率 的 情况 下 设备 的 功率 是 受 限 的 。 

无 线 介 质 也 采用 多 路 访问 方式 ， 将 无 线 信 号 仅 传输 给 一 个 接收 者 是 困难 的 ， 吕 免 接 收 
邻居 的 无 线 信和 号 也 是 困难 的 。 因 此 ， 在 无 线 链 路 中 介质 访问 控制 是 核心 问题 。 在 传输 无 线 
这 号 时 ， 控 制 该 信号 的 接收 者 是 困难 的 ， 因 此 和 听 问 题 也 必须 考虑 。 





令 牌 环 网 3 | 

多 年 来 构建 局 域 网 一 直 有 两 种 主要 方式 : 以 太 网 和 念 牌 环 网 。 令 牌 环 网 是 由 IPBM 提出 
的 ， 标 准 化 为 IEEE 802.5。 念 牌 环 网 与 以 太 网 有 许多 类 似 之 处 : 环 中 采用 共享 介质 ， 依 据 分 
布 式 算 法 决定 哪个 节点 何 时 能 够 传输 帧 ， 每 个 节点 都 能 够 看 到 其 他 所 有 节点 传输 的 分 组 。 

令 牌 环 网 和 以 太 网 最 大 的 区 别 是 拓扑 结构 。 以 太 网 是 总 线 型 拓扑 结构 ， 而 令 牌 环 网 不 


环 型 拓扑 结构 。 每 个 节点 都 连接 着 一 对 邻居 ， 一 个 上 游 节点 ， 一 个 下 游 节 上 扣 。“ 令 牌 ” 有 十 
一 个 特定 的 比特 序列 ， 它 在 环 中 循环 移动 ， 每 个 节点 接收 令 牌 然后 转发 。 当 一 个 有 帧 要 传 
输 的 节点 看 到 令 牌 时 ， 它 把 令 牌 从 环 上 取 下 〈( 即 它 不 转发 这 个 特定 的 比特 模式 )， 而 将 日 
己 的 帧 播 入 环 中 。 沿 路 的 每 个 节点 简单 地 转发 帧 ， 目 的 节点 保存 帧 的 副本 ， 然 后 将 消息 转 
发 给 环 的 下 一 节点 。 当 帧 返回 到 发 送 方 时 ， 这 个 节点 将 帧 取 下 来 (而 不 是 继续 IRRE) A 
后 再 插入 令 牌 。 以 这 种 方式 ， 菜 个 下 游 节 点 将 有 机 会 发 送 一 一 个 巾 。 介 质 访问 算法 是 公平 的 ， 
ie 多 着 环 循环 ， 每 个 节点 都 有 机 会 发 送 帧 。 令 牌 环 以 轮转 的 方式 为 节点 提供 服务 。 

过 去 几 十 年 中 出 现 了 许多 令 牌 环 网 的 变 体 ， 光 纤 分 布 式 数 据 接 口 〈Fiber Distributed 
Data Interface, FDDI) 就 是 其 中 之 一 。 最 终 ， 令 牌 环 网 逐渐 被 以 太 网 淘汰 ， 尤 其 是 随 着 
以 太 网 交换 技术 和 和 各 种 高 速 以 大 网 (100M 比特 和 100G 比特 以 大 网 ) 的 出 现 。 


无 线 网 络 技术 多 种 多 样 ， 每 种 技术 都 有 不 同 的 特点 。 对 不 同 技术 进行 分 类 的 简单 方法 
是 依据 它们 所 提供 的 数据 传输 速率 和 传输 距离 。 其 他 区 别 包 括 其 占用 的 电磁 频谱 (包括 是 
否 需 要 沉默 期 和 消耗 的 能 量 。 本 节 中 ， 我 们 探讨 三 种 主要 的 无 线 技术 : WiFi 〈 众 所 周 
知 的 802. 11)、 蓝 牙 以 及 蜂窝 无 线 标准 中 的 第 三 代 技 术 GG). R 2-4 给 出 了 这 些 技术 的 
基 仿 情况 及 其 简 单 对 比 。 


R2 2-4 See 


ET ae ETAR 
典型 应 用 EC 


回想 在 1. 5 节 中 ， 带 宽 有 时 表示 以 赫兹 为 单位 的 频段 宽度 ， 有 时 表示 链 路 的 数据 传输 
速率 。 因 为 这 些 概念 在 无 线 网 络 中 经 常 遇 到 ， 在 此 我 们 使 用 带宽 (bandwidth) 表示 其 本 
来 的 含义 ， 即 频段 的 宽度 ， 使 用 数据 传输 速率 (data rate) 表示 在 链 路 上 每 秒 能 够 发 送 的 
比特 数 ， 正 如 表 2-4 中 所 示 。 
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由 于 所 有 无 线 链 路 共享 同一 链 路 ， 因 而 ， 它 的 挑战 在 于 有 效 地 共享 资源 ， 并 且 彼 此 不 
过 度 干扰 。 绝 大 多 数 无 线 链 路 是 通过 频率 和 空间 的 维度 划分 实现 共享 的 。 在 一 个 特定 地 区 
的 特定 频率 可 能 分 配给 一 个 特定 的 实体 ， 例 如 一 家 公司 。 由 于 信号 从 信号 源 出 发 经 过 一 定 
的 距离 后 将 减弱 〈attenuate)， 因 而 对 一 个 电磁 信和 号 所 覆盖 的 区 域 面积 加 以 限制 是 可 行 的 。 
降低 发 射 器 的 功率 即 可 缩小 信号 履 盖 的 范围 。 

无 线 信道 的 分 配 是 由 像 美国 联邦 通信 委员 会 (FCO 这 样 的 政府 机 构 决 定 的 。 特 定 的 
频段 〈 频 率 范 围 ) 分 配 用 作 特 定 的 用 途 。 一 些 频段 留 作 政府 专用 ， 其 他 频段 用 作 AM 广 
播 、FM 广播 、 电 视 、 卫 星 通信 和 移动 电话 。 这 些 频段 的 特定 频率 允许 某 个 地 理 区 域 的 个 
体 组 织 使 用 。 最 后 有 几 个 频段 留 作 免 许可 之 用 不 需要 许可 。 

利用 免 许 可 频率 的 设备 仍然 受到 某 些 约束 ， 和 否则 它 就 是 无 约束 的 共享 网 络 了 。 一 个 重 
要 的 限制 是 传输 功率 ， 这 样 便 限制 了 信号 的 范围 ， 使 得 它 不 太 可 能 干扰 其 他 的 信号 。 例 
如 ， 一 部 无 绳 电话 〈 免 许可 设备 ) 的 有 效 范围 大 概 是 100 英尺 。 

当 频 谱 在 许多 设备 和 应 用 间 共 享 时 ， 一 种 解决 思路 是 利用 扩 频 (spread spectrum) 技 
术 。 扩 频 的 思想 是 在 比 正常 范围 更 广 的 频段 上 传播 信号 ， 以 减 小 来 自 其 他 设备 的 影响 〈 扩 
频 最 初 用 于 军事 领域 ， 因 而 这 些 “ 其 他 设备 ”经 和 常 试图 干扰 信号 )。 例 如 ， 跳 频 (frequen- 
cy hopping) 是 一 种 以 随机 的 频率 序列 传输 信号 的 扩 频 技术 ， 它 的 机 制 是 首先 以 一 个 频率 
传输 信号 ， 接 着 以 第 二 个 频率 传输 ， 然 后 以 第 三 个 频率 ， 依 此 类 推 。 传 输 频率 的 序列 不 是 
真正 的 随机 ， 而 是 由 一 个 伪 随 机 数 生成 器 计算 生成 的 。 接 收 方 利 用 与 发 送 方 相同 的 算法 
( 且 以 相同 的 值 初始 化 );， 因 而 能 够 与 传输 者 的 频率 同步 以 便 正确 地 接收 数据 帧 。 这 种 方式 
使 得 两 个 信号 利用 相同 频率 传输 信息 的 可 能 性 几乎 为 零 ， 从 而 减 小 了 干扰 。 

另外 一 种 扩 频 技术 称 为 直接 序列 (direct sequence)， 为 更 好 地 抗 干扰 而 增加 了 宛 余 。 
一 个 数据 比特 在 信号 传输 中 由 多 个 比特 位 表示 ， 如 果 一 些 传 输 的 比特 位 由 于 干扰 而 被 破坏 
了 ， 通 常 有 足够 的 元 余 来 恢复 最 初 的 位 。 对 于 发 送 者 想 要 传输 的 每 一 位 比特 ， 实 际 上 发 送 的 
是 该 比特 入 个 随机 比特 的 异 或 值 。 在 跳 频 技术 中 ， 随 机 比特 序列 是 由 发 送 者 和 接收 者 部 知 
道 的 伪 随 机 数 生成 器 产生 的 。 所 传输 的 值 是 一 个 n 比特 切片 编码 (n-bit chipping code), ‘Ei 
过 ?7 倍 于 帧 所 需要 带宽 的 频带 传播 信号 。 图 2-27 给 出 了 一 个 4 比特 切片 序列 的 示例 。 
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图 2-27 4 比特 切片 序列 实例 
电磁 频谱 的 不 同 部 分 具有 不 同 的 属性 ， 这 样 使 得 其 中 一 些 适 合 通信 ， 另 一 些 则 不 适 
合 。 例 如 ， 一 些 频谱 能 穿 透 建筑 物 而 有 些 则 不 能 。 政 府 仅 控制 基本 通信 部 分 ， 无线电 和 微 
波 范围 。 随 着 对 基本 频谱 需求 的 增加 ， 当 模拟 电视 逐渐 被 数字 电视 淘汰 时 ， 人 们 开始 关注 
一 些 重新 成 为 可 用 资源 的 频谱 .9 


日 ”由 于 视频 编码 和 调制 技术 的 发 展 ， 在 数字 视频 传输 中 ， 每 个 电视 频道 所 需 的 频谱 减少 了 。 
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通常 不 移动 ， 但 有 线路 〈 至 少 高 带宽 ) 连接 到 因特网 或 者 其 他 网 络 ， 如 图 2-28 所 示 。 在 
链 路 另 一 端的 节点 (在 此 表现 为 客户 节点 ) 通常 是 移动 的 ， 并 且 依 靠 与 基站 的 连接 实现 与 
其 他 市 点 的 通信 。 
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图 2-28 利用 基站 的 无 线 网 络 


在 图 2-28 中 ， 利 用 一 对 波浪 线 表示 在 两 个 设备 间 〈( 即 在 基站 和 一 个 客户 市 点 之 闻 ) 
提供 的 无 线 “ 链 路 ” 。 无 线 通信 的 一 个 有 趣 的 特点 是 它 自然 支持 点 到 多 点 的 通信 ， 这 是 因 
为 由 一 个 设备 发 送 的 无 线 电波 能 够 同时 被 多 个 设备 收 到 。 然 而 ， 为 高 层 协议 创建 一 个 点 到 
态 的 链 路 通常 是 有 用 的 ， 我 们 将 在 本 节 后 面 看 到 它 的 运作 实例 。 

注意 在 图 2-28 中 ， 非 基站 (客户 ) 市 点 之 间 的 通信 和 是 通过 基站 进行 路 由 的 。 尽 管 由 
一 个 客户 节点 发 出 的 无 线 电波 可 能 会 被 其 他 的 客户 布 挟 收 到 ， 但 是 E 
客户 节操 之 间 的 直接 通信 。 

这 种 拓扑 包含 有 三 种 不 同 级 别 的 移动 性 。 第 一 级 是 不 移动 ， 这 种 情况 下 接收 方 必须 在 
一 个 固定 位 置 接收 来 目 基 站 的 定向 传输 。 第 二 级 是 在 基站 的 范围 内 移动 ， 对 应 的 实例 是 蓝 
牙 技术 。 第 三 级 是 基站 之 间 的 移动 ， 蜂 窜 电 话 和 Wi-Fi 是 对 应 的 实例 。 

另 一 种 引 人 注 目的 无 线 网 络 拓扑 是 网 格 (mesh) 或 自 组 织 (ad hoc) 网 络 。 在 无 线 
网 格 中 ， 市 扩 是 对 等 的 〈 即 没有 特别 的 基站 节点 )。 只 要 每 个 节点 在 前 面 节 点 的 范围 之 
内 ， 消 息 就 可 以 由 对 等 节点 组 成 的 链 向 前 发 送 。 这 种 情形 可 由 图 2-29 说 明 。 这 样 便 允 
许 网 络 的 无 线 部 分 延伸 到 一 个 发 射 器 限制 的 范围 之 外 。 从 技术 之 间 葛 和 争 的 角度 ， 这 样 使 

得 较 短 距离 的 无 线 网 络 通信 技术 得 以 延伸 并 可 与 较 长 距离 的 技术 抗衡 。 网 格 还 提供 容错 
这 是 通过 提供 获取 从 点 A 到 点 B 消 息 传输 的 多 种 路 由 实现 的 。 网 格 能 够 不 断 扩 
展 ， 费用 也 随 之 不 断 增 加 。 另 一 方面 ， 网 格 需要 的 非 基站 节点 的 硬件 和 软件 设计 实现 都 
具有 一 定 的 复杂 性 ， 潜 在 地 增加 了 单位 成 本 以 及 电力 消耗 ， 这 是 电池 设备 要 考虑 的 重要 
内 容 。 无 线 网 格 网 络 具 有 较 强 的 理论 研究 价值 (参见 参考 文献 中 的 相关 内 容 )， 但 是 与 
基站 网 络 相 比 ， 它 们 依然 很 不 成 熟 。 无 线 传感器 网 络 是 另 一 种 热门 的 无 线 技术 ， 它 通常 
可 形成 无 线 网 格 。 
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图 2-29 无 线 目 组 织 网 络 或 网 格 网 络 


现在 我 们 已 经 简单 介绍 了 一 些 常见 的 无 线 技术 ， 下 面 我 们 进一步 介绍 这 些 无 线 技术 的 
细节 。 


2.7.1 802. 11/Wi-Fi 


大 部 分 读者 都 使 用 过 基于 IEEE 802.11 标准 的 无 线 网 络 ， 通 常 称 为 WIS. WiFi 
在 技术 上 是 一 个 商标 ， 由 一 个 名 为 Wi-Fi 联盟 的 商业 组 织 拥有 ， 确 保 其 产品 符合 802. 11 
标准 。 类 似 于 以 太 网 ，802. 11 APA AH KE., DAS. RED, EMER 
战 是 对 共享 通信 介质 的 协调 访问 在 此 情况 下 ， 信 号 通过 空间 传播 。 

1。 物理 属性 

802. 11 定义 了 许多 不 同 的 物理 层 ， 其 频段 不 同 ， 提 供 的 数据 传输 速率 也 不 同 ， 截 至 
目前 ，802. 11n 提供 的 数据 传输 速率 最 高 ， 可 达 600Mbps。 

最 初 的 802. 11 标准 定义 了 两 个 基于 无 线 电 的 物理 层 标准 ， 一 个 利用 跳 频 (在 79 个 
IMHz 宽 的 频带 上 ) ， 另 一 个 利用 直接 序列 〈 使 用 一 个 11 比特 的 切片 序列 ) 。 两 者 都 提供 
了 2Mbps 的 速率 。 后 来 又 补充 了 物理 层 标 准 802. 11b。 利 用 不 同 的 直接 序列 ，802. 11 可 
提供 最 高 11Mbps 的 速率 。 这 三 个 标准 运行 在 电磁 波谱 2. 4GHz 的 免 许 可 频带 。 接 着 又 制 
Æ T 802. 11a 标准 ， 利 用 正 交 频 分 多 路 复 用 (Orthogonal Frequency Division Multiple- 
xing, OFDM) 一 一 FDM 的 一 种 ， 可 使 发 送 速 率 达 到 54Mbps。802. 11a 运行 在 5GHz 的 
免 许可 频段 。 一 方面 ， 该 频段 使 用 较 少 ， 因 此 干扰 也 较 少 。 另 一 方面 ， 很 多 信号 被 吸收 
了 ， 且 几乎 都 被 限制 在 视线 之 内 。 接 下 来 是 802. 11g，802. 11g 也 使 用 OFDM, 传输 速率 
可 达到 54Mbps， 它 向 后 兼容 802. 11b (可 用 2. 4GHz 频带 ) 。 

最 新 的 标准 是 2009 年 提出 的 802. 11n (尽管 先前 的 标准 产品 已 经 存在 )，802. 11n 使 
用 多 路 天 线 ， 允 许 更 大 的 无 线 信道 市 宽 ， 尽 最 大 可 能 提高 了 数据 传输 速率 。 多 路 天 线 的 使 





© 类 比 于 Hi-Fi (High Fidelity， 高 保 真 )，WirFi 是 意 为 “无 线 保 真 ”， 还 是 仅 为 一 个 除 802. 11 外 别 无 所 指 的 好 
记 的 名 字 ， 对 此 人 们 尚 存 争议 。 
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用 通常 称 为 MIMO ， 用 于 多 路 输入 输出 。 

对 于 商业 产品 来 说 支持 多 种 802. 11 标准 是 必要 的 ， 一 些 基站 支持 所 有 四 种 标准 (a、 
b、g 和 n) 。 这 不 仅 保证 了 支持 任 一 标准 的 设备 的 兼容 性 ， 而 且 使 得 在 特定 环境 中 两 个 产 
品 可 以 选择 其 最 高 的 带宽 。 | 

值得 注意 的 是 ， 所 有 802.11 标准 都 定义 了 其 能 够 支持 的 最 大 比特 传输 率 ， 它 们 在 低 
比特 率 时 工作 得 更 好 ， 例 如 ，802. 11a 支持 的 比特 率 为 6Mbps, 9Mbps, 12Mbps, 
18Mbps、24Mbps、36Mbps、48Mbps 和 54Mbps， 在 低 比 特 率 时 ， 它 更 容易 对 受 噪 声 干 
扰 的 传输 信号 进行 解码 。 为 了 实现 不 同 的 比特 率 ， 需 要 用 到 不 同 的 调制 方法 ， 此 外 ， 用 于 
差错 纠正 编码 的 元 余 信息 的 数量 也 是 不 同 的 (参见 2.4 节 中 关于 差错 检测 码 的 介绍 ) B 
宛 余 信 息 意味 着 低 有 效 数据 传输 效率 (因为 有 更 多 的 传输 比特 是 元 余 的 )。 

系统 希望 在 噪声 环境 下 获得 更 优 的 比特 传输 速率 ， 比 特 率 选择 算法 可 能 很 复杂 (在 
“扩展 阅读 ”一 节 中 有 个 例子 )。 有 趣 的 是 ，802. 11 标准 没有 制定 特定 的 方法 ， 这 些 算法 
可 以 由 供应 商 提供 。 选 择 比特 率 的 基本 方法 是 通过 直接 在 物理 层 测量 信 噪 比 (SNR) 来 测 
试 误 比特 率 ， 或 者 通过 度量 分 组 被 成 功 传输 和 确认 的 频率 来 测量 SNR。 在 有 些 方法 中 ， 
发 送 方 会 通过 高 比特 率 发 送 一 个 或 多 个 分 组 ， 看 其 是 否 成 功 ， 据 此 探测 比特 率 。 

2. 冲突 避免 | 

乍 一 看 ， 无 线 网 协议 好 像 恰 好 遵循 与 以 太 网 相同 的 算法 〈 等 到 链 路 成 为 空闲 后 再 传 
输 ， 并 且 如 果 发 生 冲突 则 退 避 )。 粗 略 地 说 ， 这 正好 是 802.11 所 做 的 。 然 而 ， 与 无 线 网 络 
不 同 ， 以 太 网 中 的 节点 在 接收 其 他 节点 的 传输 时 ， 能 够 同时 发 送 数据 ， 而 无 线 网 络 中 的 节 
点 不 具备 该 特性 ， 这 使 得 在 无 线 网 络 中 的 冲突 检测 非常 复杂 。 无 线 网 络 中 节点 通常 不 能 同 
时 收发 数据 (以 同样 的 频率 )， 传 输 器 的 能 量 通 常 高 于 接收 信号 ， 一 个 无 线 节 点 可 能 因为 
太 远 而 不 能 接收 其 他 节点 的 传输 ， 这 种 情况 相当 复杂 ， 下 面 将 进行 详细 描述 。 

考虑 图 2-30 所 示 的 情况 ， 其 中 A 和 C 都 在 B 的 有 效 范围 内 ， 但 是 A 与 C 彼此 间 不 能 
直接 通信 。 假设 A 和 C 都 想 与 B 进行 通信 ， 因 此 都 向 B 发 送 一 个 帧 。A 和 C 都 察觉 不 到 
对 方 ， 因 为 它们 的 信和 号 不 能 传送 那么 远 。 这 两 个 帧 在 B 处 互相 冲突 ， 但 与 以 太 网 不 同 ，A 
和 C 都 不 知道 这 一 冲突 。 此 时 A 和 C 分 别称 为 对 方 的 隐藏 节点 (hidden node) 。 

一 个 相关 的 问题 称 为 暴露 节点 问题 (exposed node problem) ， 在 图 2-31 所 示 的 情况 
下 发 生 ， 其 中 4 个 节点 中 的 每 个 节点 都 能 发 送 和 接收 信和 号， 这些 信 号 只 能 到 达 紧 靠 它 左 右 的 








图 2-30 隐藏 节 反 问题 。 昌 然 人 和 CC 图 2-31 暴露 节点 问题 。 昌 然 B 和 C 的 信和 号 
相互 隐藏 ， 但 它们 的 信号 可 能 在 B 处 彼此 暴露 ,但 B 给 A 发送 与 C 给 DD 发 送 
冲突 (B 的 到 达 未 显示 ) 不 会 互相 干扰 (A 和 D 的 到 达 未 显示 ) 
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节点 。 例 如 ，B 能 够 与 A 和 C 交换 帧 ， 但 不 能 到 达 D， 而 C 能 够 到 达 B 和 D 但 不 能 到 达 
A。 假设 B 向 A 发 送 数 据 ， 节 点 C 察觉 到 这 一 通信 ， 因 为 它 侦 听 到 了 B 的 传输 。 如果 C 
只 是 因为 听 到 B 的 传输 就 断定 它 不 能 向 任何 节点 传输 ， 这 将 是 错误 的 。 例 如 ,假设 C 希望 
向 节点 D 传输 数据 ， 因 为 C 向 D 传输 不 会 干扰 A 从 B 接 收 ， 所 以 这 不 成 问题 。( 它 将 干扰 
Al] BARK, 但 在 本 例 中 B 正在 发 数据 。) 

802. 11 使 用 CSMA/CA 解决 这 两 个 问题 ， 这 里 CA 表示 冲突 避免 (avoidance), 不同 
于 以 太 网 CSMA/CD 中 的 冲突 检测 (detection)。 具 体 原 理 下 面 将 进行 介绍 。 

载波 监听 看 起 来 似乎 很 简单 :在 发 送 分 组 前 ， 监 听信 道中 是 否 有 信号 在 传输 ， 如 果 没 
有 就 发 送 。 然 而 ， 因 为 隐藏 终端 问题 ， 仅 仅 没 有 监听 到 其 他 节点 的 信号 并 不 能 保证 在 接收 
端 不 会 发 生 冲 突 。 因 此 ， 在 CSMA/CA 中 需要 接收 方 给 发 送 方 明确 发 送 一 个 ACK。 如 果 
分 组 被 成 功 解码 并 通过 了 CRC 校 验 ， 则 接收 方 给 发 送 方 发 送 一 个 ACK。 

需要 注意 的 是 如 果 冲 突 发 生 了 ， 整 个 分 组 将 变 得 无 效 。 因 此 ，802. 11 增加 了 称 为 
RTS-CTS (请 求 发 送 -清除 发 送 ) 的 机 制 。 这 可 以 在 一 定 程度 上 解决 隐藏 终端 问题 。 发 送 
方 给 期 望 的 接收 方 发送 一 个 短 分 组 RTS， 如 果 分 组 被 成 功 接收 ， 接 收 方 会 通过 一 个 短 帧 
CTS 进行 响应 。 即 使 RTS 没有 被 隐藏 终端 听 到 ，CTS 也 会 被 它 听 到 。 这 会 告诉 在 接收 方 
信号 范围 内 的 节点 在 一 段 时 间 内 不 能 发 送 分 组 ， 期 望 传 输 的 时 间 长 短 包含 在 RTS 和 CTS 
分 组 中 。 该 期 望 时 间 到 达 后 ， 经 过 一 个 小 的 时 隙 ， 信 道 就 变 为 可 用 ， 其 他 节点 可 以 尝试 
发 送 。 k 

当然 ， 如 果 两 个 节点 同时 检测 到 一 个 空闲 链 路 并 试图 发 送 一 个 RTS 帧 ， 那 么 它们 的 
RTS 帧 将 彼此 冲突 。 当 发 送 方 在 一 段 时 间 之 后 没有 收 到 CTS 帧 时 ， 它 就 知道 发 生 了 冲突 ， 
在 这 种 情况 下 ， 它 们 都 等 待 一 段 随机 时 间 后 再 试 。 一 个 给 定 节 点 延迟 的 时 间 是 由 用 在 以 太 
网 上 的 相同 的 指数 退 避 算法 定义 的 ( 见 2.6.2 节 )。 7 

在 一 次 成 功 的 RTS-CTS 交换 后 ， 发 送 方 发 送 其 数据 分 组 ， 发 送 完 后 接收 该 分 组 的 
ACK。 如 果 ACK 超时 ， 发 送 方 使 用 上 述 方法 试图 再 次 请 求 信道 。 当 然 ， 这 时 其 他 节点 可 
能 也 会 试图 访问 信道 。 

3. 分 布 式 系统 

如 上 所 述 ，802. 11 适合 网 格 〈 自 组 织 ) 的 网 络 拓扑 ， 针 对 网 格 网 络 的 802. 11s 标准 即 
将 完成 。 然 而 ， 当 前 几乎 所 有 802. 11 网 络 都 使 用 面向 基站 的 拓扑 。 

网 络 中 所 有 节点 并 不 是 完全 相同 的 ， 有 些 节 点 允许 移动 (例如 便携 式 电 脑 )， 有 些 节 
点 连接 到 有 线 网 络 基础 设施 上 。802. 11 称 这 些 基 站 为 接 入 点 (Access Point, AP), 并且 
它们 是 通过 一 个 所 谓 的 分 布 式 系统 (distribution system) 彼此 连接 的 。 图 2- 32 给 出 一 个 
连接 三 个 接 入 点 的 分 布 式 系统 ， 每 个 接 人 点 为 某 一 区 域 的 节点 服务 。 每 个 接 和 人 点 在 其 适当 
频率 范围 的 信道 上 工作 ， 并 采用 与 它 的 邻居 不 同 的 信道 。 

“分布 式 系统 的 细节 在 这 个 讨论 中 并 不 重要 ， 例 如 ， 它 可 能 是 一 个 以 太 网 。 唯 一 重要 的 
是 分 布 式 网 络 运行 在 链 路 层 ， 即 它 与 无 线 链 路 在 同一 个 协议 层 运行 ， 换 言 之 ， 它 不 依赖 于 
任何 高 层 协议 〈 如 网 络 层 ) 。 | | 

如 果 两 个 节点 彼此 可 达 ， 它 们 就 能 够 直接 通信 ， 但 这 种 配置 的 思想 是 ， 每 个 节点 与 各 
自 的 一 个 接 入 点 相 联系 。 例 如 ， 对 于 节点 A 与 节点 卫 通 信 ，A 首先 向 它 的 接 入 点 (AP-1) 
发 送 一 个 帧 ， 接 人 点 通过 分 布 式 系统 向 AP-3 转发 这 一 帧 ， 最 后 AP-3 向 下 发 送 该 帧 。 


7 __ #2# 





图 2 32 接 入 点 连接 到 分 布 式 系统 


AP-1 如 何 知道 向 AP-3 发 送 消 息 超 出 了 802. 11 的 范围 ， 它 可 以 使 用 下 一 章 3.1.49) f 
述 的 桥接 协议 。802. 11 详细 说 明了 节点 如 何 选 择 接 入 点 ， 更 有 趣 的 是 当 市 点 从 一 个 区 域 
移动 到 另 一 个 区 域 时 该 算法 如 何 工作 。 

选择 AP 的 技术 称 为 反 描 (scanning)， 它 包含 以 下 四 步 : 

1) Wak RIR— Probe W., 

2) 所 有 可 达 的 AP 用 一 个 Probe Response imi iy 

3) 布点 从 中 选 择 一 个 AP， 并 加 那个 AP are Association Request ii, 

4) AP 用 一 个 Association Response MM4% , 

无 论 何 时 ， 当 一 个 节 a li 前 AP 不 满意 时 ， 它 就 会 用 到 这 个 协议 。 例 
如 ， 当 前 AP 的 信号 由 于 节点 远离 而 变 弱 时 就 会 发 生 这 种 情况 。 一 个 节点 无 论 何 时 获得 一 
个 新 的 AP， 这 个 新 的 AP 就 通 repre 化 通知 给 它 的 旧 AP CEFR 4) 中 发 生 )。 

考虑 图 2-33 所 示 的 情况 ， 其 中 市 点 C 从 AP-1 服务 的 区 域 移动 到 AP-2 服务 的 区 域 。 
在 移动 时 它 发 送 Probe tii, HAW SII H F AP-2 的 Probe Response 帧 。 在 某 一 点 上 ，C 
宁愿 选择 AP-2 而 不 是 AP-1， 因 此 它 将 自己 与 AP-2 的 接 入 点 联系 起 来 。 





图 2-33 节点 的 移动 性 


刚刚 描述 的 机 制 称 为 主动 扫描 (active scanning)， 因 为 节点 在 主动 搜索 接 人 点 。AP 
会 定期 发 送 一 个 通知 AP 能 力 的 Beacon W, SEIA AP 支持 的 传输 率 ， 这 样 的 情况 称 为 
被 动 打 描 (passive scanning): 一 个 节点 可 以 根据 Beacon 帧 ， 只 通过 向 接 入 点 发 回 一 个 
Association Request 帧 而 关联 到 AP, 
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4. . 帧 格式 

大 部 分 802. 11 帧 格式 如 图 2-34 所 示 。 这 种 帧 包含 源 节点 地 址 和 目的 节点 地 址 (长度 
都 是 48 比特 ) ， 最 多 2 312 字 节 数据 ， 以 及 一 个 32 比特 的 CRC. Control (控制 ) 字段 包 
含 三 个 重要 的 子 字段 (未 显示 ): 一 个 6 比特 的 Type SE) 字段 ， 指 明 帧 携带 的 数据 是 
一 个 RTS ie CTS 帧 ， 还 是 由 扫描 算法 使 用 ;两 个 1 比特 的 字段 〈 称 为 ToDS 和 
FromDS) 将 在 下 面 描 述 





| 控制 | 持续 时 间 | Addrl | Addr2 | Addr3 | SeqCtrl | Addr4 


i 
Se er ee ee 





图 2-34 802.11 帧 格式 


802. 11 帧 格式 独 具 特 色 之 处 是 它 包 含 四 个 地 址 而 不 是 两 个 地 址 。 如 何 解释 这 些 地 址 
取决 于 帧 的 Control 字段 中 ToDS 位 和 FromDS 位 的 设置 。 考 虑 到 帧 必须 通过 分 布 式 系统 
转发 的 可 能 性 ， 这 意味 着 原来 的 发 送 方 不 一 定 与 最 近 的 传输 节点 相同 。 同 样 也 可 以 这 样 考 
虑 目的 地 址 。 在 最 简单 的 情况 下 ， 妆 一 个 节点 直接 回 必 一 个 节点 发 送 数据 时 ， 两 个 DS 位 
都 设 为 0，Addrl 标识 目的 节点 ，Addr2 标识 源 节点 。 在 最 复杂 的 情况 下 ， 两 个 DS 位 都 
设置 为 1， 表明 消息 从 一 个 无 线 节 点 进 入 一 个 分 布 式 系统 ， 然 后 从 分 布 式 系统 到 达 为 一 个 
无 线 节 点 。 两 个 DS 位 都 置 为 1 时 ，Addrl 标识 最 终 目 的 站 ，Addr2 标识 直接 发 送 方 (从 
分 布 式 系统 向 最 终 目 的 站 转发 帧 的 节点 )，Addr3 标识 中 间 目 的 站 《从 无 线 节 点 接收 帧 并 
通过 分 布 式 系统 将 其 转发 的 节点 )，Addr4 标识 最 初 的 源 节 点 。 在 图 2-32 给 出 的 例子 中 ， 
Addrl 对 应 于 下 ，Addr2 标识 AP-3，Addr3 对 应 于 AP-1, m Addr4 标识 A. 


2.7.2 蓝牙 (802. 15. 1) 


蓝牙 技术 填充 了 移动 电话 、PDA、 笔 记 本 电脑 以 及 其 他 个 人 或 外 围 设 备 之 间 的 短 距 离 
通信 的 缝隙 。 例 如 ， 蓝 牙 技术 可 用 于 连接 移动 电话 和 耳机 ， 笔 记 本 电脑 和 耳机 。 概 略 地 
讲 ， 蓝 牙 是 利用 电线 连接 两 个 设备 的 一 种 更 为 方便 的 替代 。 在 这 种 应 用 中 ， 不 必 提 供 很 大 
的 范围 或 带宽 。 这 对 于 由 电池 供电 的 设备 很 有 利 ， 其 中 很 重要 的 原因 是 耗 电 不 多 。 这 样 驶 

能 够 满足 蓝牙 的 应 用 目的 ， 多 数 蓝 牙 设备 电池 能 量 有 限 〈 例 如 无 处 不 在 的 电话 耳机)， 
此 耗 电 少 是 非常 重要 的 .9 

蓝牙 运行 在 2. 45GHz 的 免 许 可 频段 ， 其 链 路 典型 带宽 是 1 一 3Mbps， 有 效 范围 大 约 
10m。 正 因 如 此 ， 加 之 通信 设备 通常 属于 个 人 或 一 个 组 织 ， 因 此 蓝牙 有 时 被 归 类 为 个 人 区 
域 网 络 (Personal Area Network, PAN). 

有 一 个 称 为 蓝牙 专业 因特网 组 织 (Bluetooth Special Znternet Group) 的 工业 联盟 为 
蓝牙 制定 相关 标准 。 它 为 一 一 系列 应 用 程序 制定 了 一 一 套 完整 的 协议 ， 超 出 了 链 路 层 对 应 用 协 
议 的 定义 ， 称 为 针对 应 用 的 应 用 协议 轮 廊 (profile)。 例 如 ， 用 于 同步 PDA 和 个 人 计算 机 
PEON TE 就 802. 11 而 论 ， 另 一 个 应 用 协议 轮廓 为 移动 计算 机 提供 对 有 线 LAN 的 
访问 ， 尽 管 这 不 是 蓝牙 的 最 初 目 的 。 IEEE 802. 15. 1 标准 建立 在 蓝牙 的 基础 上 ， 但 是 它 不 
包含 应 用 协议 。 


@@” 谁 真 的 想 在 耳朵 里 放 一 个 高 能 量 的 无 线 电 耳机 呢 ? 
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最 基本 的 蓝牙 网 络 配置 称 为 皮 可 网 (piconet)， 由 一 个 主 设备 和 ?7 个 从 设备 组 成 ， 如 
图 2-35 所 示 。 所 有 通信 都 发 生 在 主 设备 和 从 设备 之 间 ， 从 设备 彼此 之 间 不 直接 通信 。 由 
于 从 设备 作用 简单 ， 因 而 它们 的 蓝牙 硬件 和 软件 简单 且 价 格 低廉 。 





从 设备 
(活动 ) 





WEE 7 
(et ) 





从 设备 
(活动 ) 


图 2-35 EFAN 


FRE Beet Oy HB EET. BR ae A SN CLAN BT BY BL 
WR) 来 处 理 频 率 段 中 可 能 的 干扰 。 它 利用 79 个 信道 (channel) (频率 ) 的 跳 频 ， 每 个 每 次 使 
用 625ps。 这 为 蓝牙 利用 同步 时 分 多 路 复 用 提供 了 一 个 自然 的 时 间 片 。 传 输 一 帧 占用 1、3 或 
5 个 连续 的 时 间 片 。 只 有 主 设备 可 以 在 奇数 时 间 片 开始 传输 。 从 设备 可 以 在 偶数 时 间 片 开始 
传输 ， 但 仅 回 应 在 先前 时 间 片 中 主 设备 的 请 求 ， 因 此 不 允许 在 从 设备 之 间 进 行 连接 。 

从 设备 可 以 被 停 置 (parked): 设置 其 为 不 活动 、 低 电量 状态 。 停 置 设备 不 能 与 皮 可 网 通 
信 ， 它 只 能 通过 主 设备 激活 。 除 了 活动 从 设备 之 外 ， 一 个 皮 可 网 还 可 有 255 个 停 置 设备 。 

除了 蓝牙 之 外 ， 在 低 功 耗 短 距离 通信 和 领域 还 有 一 些 其 他 技术 ， 其 中 之 一 就 是 ZigBee, 
TEA ZigBee 联盟 设计 并 被 标准 化 为 IEEE 802. 15.4，ZigBee 用 于 带宽 需求 较 少 和 耗 电 很 低 
以 使 电池 使 用 时 间 较 长 的 情况 。 它 的 设计 宗旨 是 比 蓝 牙 简单 和 便宜 ， 其 经 济 性 使 其 适合 于 
廉价 设备 ， 例 如 传感器 。 传 感 器 是 一 种 越 来 越 重要 的 网 络 设备 ， 这 些 廉 价 的 小 设备 可 以 大 
人 | 





Hes BS FE GS BR 7K LD T E a fs» 基于 蜂 窜 标 准 的 数据 服务 正在 变 得 越 来 越 流 行 〈 这 得 
人 益 于 移动 电话 和 智能 手机 araa 的 快速 增长 ) 。 其 缺点 之 一 是 用 户 的 使 用 成 本 高 ， 
某 些 原因 是 蜂 窒 使 用 许可 的 频谱 (在 若干 年 前 被 蜂 # 窒 电话 运营 商 以 天 文 价 格 买 断 ) ， 用 于 
RR Hi (现在 是 用 于 蜂 窒 数 据 〉 的 频段 在 世界 各 地 是 不 同 的 。 例 如 ， 在 欧洲 ， 用 于 蜂窝 
电话 的 主要 频段 是 900MHz 和 1 800MHz， 在 北美 ， 使 用 850MHz 和 1 900MHz 的 频段 。 
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这 种 在 频谱 利用 上 的 全 球 不 一 致 性 给 那些 周游 世界 的 用 户 带 来 了 一 些 问 题 ， 并 为 能 在 多 种 
频率 上 运行 的 手机 创造 了 市 场 〈 例 如 ， 一 个 三 频段 手机 能 在 上 面 提 到 的 四 种 频段 中 的 三 种 
频段 上 通信 ) 。 然 而 ， 与 不 断 增 多 的 一 直 折磨 着 蜂窝 通信 业务 的 不 相 容 标准 相 比 ， 该 问题 
则 略 显 苍白 。 直 到 最 近 ， 才 出 现 了 一 些 在 少量 标准 集 上 的 集中 迹象 。 最 后 的 问题 是 ， 绝 大 
多 数 蜂 窜 技 术 是 设计 用 于 声音 通信 的 ， 直 至 现在 才 开 始 适 当地 支持 高 带宽 数据 通信 ， 
| (R 802.11 和 WiMAX 一样， 蜂窝 技术 依赖 对 基站 的 使 用 ， 基 站 是 有 线 网 络 的 一 部 分 。 
由 一 个 基站 天 线 负 责 的 地 理 区 域 称 为 一 个 蜂窝 (cell) 。 一 个 基站 可 以 为 一 个 蜂窝 服务 ， 或 
利用 多 个 方向 上 的 天 线 为 多 个 蜂 窗 服务。 蜂窝 没有 明确 的 边界 ， 它 们 彼此 重 玲 。 在 重 和 到 之 
处 ， 一 部 移动 电话 可 以 与 多 个 基站 通信 。 这 一 点 与 图 2- 43 表示 的 802.11 有 些 相 像 。 然 
而 ， 在 任意 时 刻 ， 一 部 电话 仅 能 与 一 个 基站 通信 ， 且 受 控 于 该 基站 。 当 移动 电话 离开 一 个 
蜂窝 时 ， 它 移动 到 由 一 个 或 多 个 蜂窝 重 堆 的 区 域 。 当 前 的 基站 感觉 到 该 电话 的 信和 号 变 弱 ， 
将 对 该 电话 的 控制 交 给 收 到 最 强 信号 的 基站 。 如 果 此 时 该 电话 有 一 个 呼叫 ， 该 呼叫 必须 由 
新 基站 传递 ， 这 称 为 切换 (handoff) 。 | 

”如 上 所 述 ， 蜂 窝 通信 没有 唯一 的 标准 ， 而 是 以 不 同 的 方式 、 不 同 的 传输 速度 支持 数据 
通信 的 竞争 技术 集合 。 这 些 技术 被 松散 的 划分 为 代 (generation)， 第 一 代 (1G) 是 模拟 
的 ， 因 而 数据 通信 能 力 有 限 。 第 二 代 标 准 转向 数字 通信 ， 提 供 无 线 数据 服务 ， 而 第 三 代 
(3G) 标准 支持 高 带宽 并 同时 支持 声音 和 数据 传输 。 目 前 大 部 分 移动 电话 网 络 支持 3G， 并 
E 4G 也 开始 出 现 。 由 于 每 一 代 都 拥有 自己 的 标准 和 技术 ， 因 此 对 于 一 个 特定 的 网 络 是 属 
于 3G 还 是 其 他 经 常会 有 争议 〈 基 于 市 场 原因 ) 。 

第 三 代 (3G) 蜂 窜 通 信 的 概念 在 3G 技术 实现 之 前 就 已 经 建立 ， 引 在 制定 将 提供 高 于 
2G 的 数据 带宽 的 单一 国际 标准 。 不 幸 的 是 ， 单 一 的 标准 并 没有 实现 ， 这 种 趋势 似乎 可 能 
要 延续 到 4G。 然 而 有 趣 的 是 ， 大 部 分 3G 标准 都 基于 CDMA ( 码 分 多 路 复 用 〉 的 变 体 。 

CDMA 使 用 一 种 扩 频 技术 使 来 自 多 个 设备 的 流量 共享 信道 ， 每 个 发 送 方 使 用 一 个 和 

数据 传输 速率 相关 的 码 片 速率 发 送 数据 ， 每 个 发 送 方 的 码 片 速率 对 于 接收 方 来 说 是 已 知 
的 ， 例 如 ， 每 个 蜂窝 网 络 中 的 基站 会 给 当前 与 其 关联 的 每 个 移动 设备 分 配 唯一 的 码 片 速 
率 。 当 大 量 设备 在 同样 的 蜂窝 频段 中 广播 其 信号 时 ， 所 有 传输 看 起 来 是 互相 混淆 的 。 然 
而 ， 知 道 给 定 发 送 方 码 片 速率 的 接收 方 能 够 从 混淆 的 信号 中 提取 出 它 需 要 的 数据 。 
”相对 于 其 他 多 路 复 用 技术 ，CDMA 在 针对 突 发 数据 方面 有 一 些 优势 。 它 对 于 多 少 用 
户 可 以 共享 一 个 频段 没有 限制 ， 只 要 确保 它们 都 有 唯一 的 码 片 速率 即 可 。 然 而 误 比 特 率 会 
随 着 并 发 发 送 的 增加 而 增加 ， 这 使 得 它 特 别 适 合 于 有 大 量 用 户 但 是 在 某 段 时 间 内 其 中 的 大 
部 分 用 户 都 不 使 用 网 络 的 情况 ， 这 种 情况 对 于 许多 数据 应 用 都 是 成 立 的 ， 例 如 Web 冲浪 。 
实际 系统 中 ， 许 多 移动 用 户 同时 发 送信 息 的 情况 并 不 多 见 ， 所 以 CDMA 相对 于 TDMA 这 
样 的 多 路 复 用 技术 来 说 具有 较 好 的 效率 〈 例 如 ， 它 能 接近 香农 定理 的 理论 上 限 值 ) 。 














无 线 网 络 的 跨 层 问题 

近 几 年 引起 研究 界 巨 大 关注 的 无 线 网 络 的 一 个 有 趣 的 方面 是 其 对 分 层 协 议 体系 结构 形 
成 了 挑战 。 例 如 ，802. 11 标准 能 够 建立 链 路 抽象 ， 以 点 到 点 的 方式 把 一 个 节点 连接 到 另 
一 个 节点 ， 因 此 ， 任 何 高 层 协 议 都 可 以 把 它 看 作 是 点 到 点 链 路 ， 但 这 是 正确 的 方法 吗 ? 
flim, REAR A、B、C 像 图 2-30 所 示 那 样 排 成 一 行 的 情况 ， 如 果 想 要 从 A 到 


80 | PLE 


C 获取 一 个 分 组 ， 常 规 的 方法 是 A 发 送 分 组 到 B，B 再 发 送 分 组 到 C。 但 实际 上 ， 给 定 市 
点 能 够 发 送 分 组 的 范围 并 不 一 定 是 个 固定 的 圆 图 ， 随 着 距离 的 增加 信号 会 衰减 。 因 此 人 发 
送 分 组 到 C 可 能 有 30% 的 成 功率 ， 而 它 发 送 分 组 到 忆 可 能 有 80% 的 成 功率 。 所 以 有 时 候 
、 可 能 不 需要 BB 把 分 组 转发 给 C， 分 组 有 可 能 已 经 到 C 了。 因此 C 告诉 BB “不 要 

给 我 转发 分 组 ,我 已 经 收 到 了 ”可 能 会 更 好 些 。 麻 省 理工 学 院 已 经 通过 名 为 Roofnet 的 无 线 
测试 平台 测试 了 该 方法 ,结果 显示 其 超越 常规 方法 ， 吞 吐 量 大 增 。 但 该 方法 也 意味 着 A、BB 
和 C 与 通过 简单 链 路 把 它们 连接 起 来 不 一 样 了 。 对 于 这 个 情况 有 人 说 它 违 背 了 分 层 结构 ， 然 
而 也 有 人 〈 比 如 本 书 作 者 ) 佩服 这 种 创造 力 ， 因 为 它 通过 超越 传统 分 层 而 提高 了 性 能 。 

这 样 的 例子 数不胜数 ， 从 无 线 链 路 层 向 高 层 传递 信息 确实 有 很 多 好 处 ， 它 也 有 助 于 将 
信息 从 物理 层 传 递 到 链 路 层 。 这 里 有 个 很 好 的 平衡 。 分 层 是 工具 ， 没 有 分 层 ， 构 造 大 规模 
网 络 可 能 是 很 困难 的 。 但 是 应 该 意识 到 ， 无 论 什 么 时 候 通过 分 层 来 隐藏 信息 ， 就 可 能 失去 
那些 本 不 该 隐藏 的 信息 。 我 们 应 该 把 分 层 (或 者 任何 其 他 抽象 形式 ) 当 作 是 工具 ， 而 不 是 
不 可 侵犯 的 规则 。 | : 





”与 有 线 链 路 相 比 ， 无 线 链 路 的 明显 问题 就 是 不 能 确定 数据 已 经 去 了 哪里 。 可 能 清楚 数 
据 已 经 到 达 了 期 望 的 接收 者 ， 但 却 不 清楚 有 和 多少 其 他 接收 者 可 能 也 已 经 收 到 了 所 传输 的 数 
据 。 因 此 ， 如 果 关 心 数 据 的 私密 性 ， 使 用 无 线 网 络 就 是 个 挑战 。 | 

即使 不 关心 数据 的 私密 性 ， 或 者 可 能 已 经 采取 了 一 些 其 他 方法 〈 人 参见 第 8 章 中 关于 该 
主题 的 讨论 ) ， 但 还 是 需要 考虑 一 个 未 授权 的 用 户 在 网 络 中 注 人 数据 的 问题 ， 这 将 会 消耗 
网 络 资源 ， 例 如 在 住所 和 ISP 之 间 有 限 的 带宽 。 

因为 这 些 原 因 ， 无 线 网 络 需 要 有 一 些 机 制 来 控制 链 路 本 身 以 及 传输 的 数据 。 这 些 机 制 
通常 称 为 无 线 网 络 的 安全 性 (wireless security), A DETARE PER 详细 
论述 ， 在 8. 4. 5 节 会 介绍 无 线 网 络 安全 性 的 细节 。 











通信 


ne ee 种 应 用 是 基于 卫星 的 ， 卫星 电话 利用 通信 卫星 作为 基站 ， 在 
国际 上 为 卫星 保留 的 频段 上 通信 而 且 能 在 没有 蜂窝 基站 的 地 方 获 得 服务 。 因 为 服务 代价 较 
高 ， 所 以 卫星 电话 很 少 用 于 蜂窝 电话 。 由 于 卫星 比 蜂 窝 电话 塔 远 ， 所 以 传输 和 接收 需要 经 
en te ase fre ee a 

号 广播 而 不 是 点 对 点 的 优势 ， 使 用 更 为 广泛 。 利 用 卫星 的 高 带宽 数据 通信 在 商业 上 是 可 
FN, 但 是 它 的 相对 高 代价 (设备 和 服务 ) 将 其 使 用 范围 限制 在 了 没有 其 他 可 选 通信 方式 
的 地 区 。 


2.8 ”小结 


本 章 介 绍 了 各 种 各 样 的 链 路 ， 它 们 可 以 将 用 户 连接 到 现 有 的 网 络 ， 并 构造 大 规模 网 
络 。 然 而 这 些 链 路 之 间 有 着 巨大 的 差异 ， 存 在 许多 问题 和 技术 需要 解决 。 有 五 个 关键 问题 
必须 被 解决 ， 以 便 相互 连接 的 两 个 或 多 个 节点 能 够 彼此 交换 报 文 。 
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首要 问题 是 在 源 节 点 将 组 成 二 进 制 消息 的 比特 编码 成 信号 ， 然 后 在 接收 节点 再 将 信和 号 
恢复 成 比特 。 这 是 编码 问题 ， 遇 到 的 挑战 是 需要 保持 发 送 方 和 接收 方 的 时 钟 同步 。 我 们 讨 
论 了 四 种 不 同 的 编码 技术 : NRZ、NRZI、 曼 彻 斯 特 和 4B/5B， 它 们 在 如 何 将 时 钟 信息 与 
被 发 送 数据 一 起 编码 的 问题 上 有 很 大 区 别 。 编 码 方案 的 关键 属性 之 一 是 效率 ， 即 信和 号 脉冲 
与 编码 比特 的 比率 。 | 

一 旦 可 以 在 节点 之 间 发 送 比特 ， 下 一 步 是 确定 如 何 将 这 些 比特 打包 成 帧 。 这 是 组 帧 问 
题 ， 归 结 起 来 就 是 能 辨认 每 一 帧 的 开始 与 结束 。 同 样 ， 我 们 介绍 了 几 种 不 同 的 技术 ， 包 括 
面向 字 节 的 协议 、 面 向 比特 的 协议 和 基于 时 钟 的 协议 。 

假设 每 个 节点 能 够 识别 构成 一 个 帧 的 比特 集 ， 那 么 第 三 个 问题 就 是 确定 这 些 比特 实际 
上 是 否 正 确 ， 或 者 它们 在 发 送 中 是 否 可 能 被 破坏 。 这 是 差错 检测 问题 ， 我 们 也 介绍 了 三 种 
不 同 的 方法 ,循环 元 余 校 验 〈CRC) 、 二 维 奇 偶 校 验 及 校 验 和 。 自 然 ， 其 中 的 CRC 方法 提 
供 了 最 强 的 保证 ;并 且 是 链 路 层 上 使 用 最 广泛 的 方法 。 

如 果 某 些 即将 到 达 目 的 节点 的 帧 包含 差错 ， 则 这 些 帧 将 被 丢弃， 下 一 个 问题 就 是 如 何 
从 这 种 丢失 中 恢复 ， 目 的 是 使 链 路 看 起 来 是 可 靠 的 。 解 决 这 个 问题 的 一 般 方法 称 为 自动 请 
RHR (ARQ) ， 它 使 用 确认 和 超时 相 结合 的 方法 。 我 们 介绍 了 三 种 特别 的 ARQ BE. 
停止 -等 待 、 滑 动 窗口 和 并 发 信道 。 这 些 算法 的 吸引 人 之 处 在 于 为 了 保持 信道 满载 ， 它 们 
是 如 何 有 效 使 用 链 路 的 。 | | i 

最 后 一 个 问题 与 点 到 点 链 路 无 关 ， 但 它 是 多 路 访问 链 路 的 主要 问题 ， 如 何 调解 对 一 个 
共享 链 路 的 访问 ， 以 便 使 所 有 节点 最 终 都 有 机 会 发 送 自己 的 数据 。 在 这 种 情况 下 ， 我 们 介 
绍 了 一 些 介质 访问 协议 一 一 以 太 网 和 几 种 无 线 网 络 协议 一 一 它们 已 经 用 在 局 域 网 的 实际 建 
设 中 。 由 于 无 线 传输 范围 有 限 ， 一 些 节点 可 能 彼此 隐藏 ， 无 线 网 络 的 介质 访问 较为 复杂 。 
现在 ， 多 数 普 通 无 线 网 络 协议 将 一 些 节 点 指定 为 有 线 节点 或 基站 节点 ， 而 其 他 移动 节点 与 
基站 通信 。 随 着 网 格 网 络 (所 有 节点 均 作为 对 等 实体 通信 ) 的 涌现 ， 无 线 网 络 标准 和 技术 
得 以 迅速 发 展 。 . | 
接 下 来 会 发 生 什 么 :“ 物 耿 网 | 

随 着 处 理 能 力 和 存储 技术 的 发 展 ， 廉 价 的 低能 耗 设 备 在 持续 增加 ， 互 联网 中 “主机 ” 
的 概念 发 生 了 显著 的 变化 。20 世纪 70 年 代 和 80 年 代 因 特 网 中 主要 使 用 的 是 互相 连接 的 复 
杂 计 算 机 ， 今 天 因特网 中 的 主机 可 以 是 笔记 本 电脑 或 移动 电话 ， 更 小 的 设备 也 变 得 越 来 越 
可 行 ， 例 如 传感器 和 执行 器 也 可 以 作为 因特网 中 的 主机 。 这 些 设备 昌 小 ， 但 数量 众多 ， 由 
此 出 现 了 “ 物 联 网 ”概念 一 一 在 物 联 网 中 的 很 多 物体 ， 从 电灯 开关 到 工厂 中 的 仓储 盒 ， 都 
是 互联 网 中 可 寻 址 的 “主机 ”。 

大 量 微小 物体 组 成 网 络 的 概念 听 起 来 像 科 幻 小 说 (也 许 是 反 乌托邦 的 小 说 )， 但 确实 
有 许多 具体 的 实际 应 用 。 其 中 之 一 是 通过 网 络 应 用 控制 各 种 设备 能 耗 的 想法 。 电 灯 开 关 等 
可 以 装 上 传感器 〈 测 量 电力 负荷 、 环 境 温度 等 ) 和 执行 器 (控制 设备 何 时 激活 ， 例 如 推迟 
洗衣 机 的 使 用 ， 直 到 用 电 高 峰 期 过 去 ， 这 时 电费 较 便宜 )。 这 个 概念 常常 出 现在 “智能 电 
网 ”主题 中 ， 受 今天 的 能 源 公 司 和 设备 供应 商 所 追捧 。 

万 亿 个 小 型 、 低 能 耗 、 廉 价 、 间 欢 连 接 的 设备 形成 的 网 络 对 主机 技术 提出 了 挑战 。 举 
个 简单 的 例子 ， 在 第 4 章 中 将 会 讨论 的 IPv6 的 设计 要 受到 影响 ， 需 要 寻 址 的 数量 远 多 于 
世界 上 传统 计算 机 的 数量 。 类 似 地 ， 需 要 开发 新 的 路 由 协议 在 设备 间 转 发 数据 ， 它 们 有 低 
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AY 8 三 预算 和 不 可 靠 的 无 线 连 接 ， 甚至 还 需要 开发 新 的 操作 系统 ， 用 于 这 些 能 量 、CPU 
和 存储 资源 都 受 限 的 微小 设备 。 

“ 物 联 网 ”的 未 来 我 们 拭目以待， 但 显而易见 物 联 网 已 经 超越 了 仅仅 互联 计算 机 的 视 
角 ， 互 联 亿 万 个 智能 设备 的 应 用 仅仅 是 个 开始 。 
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在 过 去 的 20 年 中 ， 计 算 机 网 络 技术 方面 最 重要 的 文献 之 一 是 Metcalf 和 Boggs HEN 
介绍 以 太 网 的 独创 性 论文 (1976) 。 许 多 年 之 后 ，Boggs、Mogul 和 Kent 报告 了 他 们 使 用 
以 太 网 的 实际 经 验 (1988) ， 打 破 了 多 年 来 文献 中 的 许多 神话 。 这 两 篇 文章 都 是 必 谈 的。 
第 三 篇 文章 讨论 了 包括 802. 11 在 内 的 无 线 网 络 的 相关 问题 

e Metcalf, R. ，and D. Boggs. Ethernet; Distributed ee switching for local com- 

puter networks. Communications of the ACM 19 (7): 395-403, July 1976. 

e Boggs, D., J: Mogul, and C. Kent. Measured capacity of an Ethernet. Proceedings 
of the SIGCOMM’88 Symposium, pages 222-234, August 1988. 

Bharghavan, V., A. Demers, S. Shenker, and L. Zhang. MACAW: A media ac- 
cess protocol i wireless LANS. Proceedings of the SIGCOMM’94 Symposium, 
pages 212-225, August 1994. 
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的 论文 LGK00] 建立 了 关于 无 线 网 络 容量 的 理论 。Basagni 等 [BCGS04] 对 无 线 自 组 织 
网 络 进行 了 很 好 的 介绍 。Bicket 等 [BABM05] 介绍 了 Roofnet 无 线 网 格 网 络 的 实验 ， 
Biswas 和 Morris [BM05]| 展示 了 运行 在 Roofnet <a ExOR。 后 者 的 论文 是 使 用 跨 层 信 
FAB EDC PS HE BE BY GIF. Jamieson 等 [JBO7] 介绍 了 跨 层 技术 的 不 同 使 用 在 面临 比特 
差错 的 情况 下 改善 吞吐 量 的 内 容 。Wong 等 LWYLB06] 关注 于 如 何在 无 线 信 道中 进行 差 
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编码 提高 无 线 网 络 性 能 的 可 行 性 。 

最 近 Xiao 等 [XCL10] 编写 的 书 调研 了 传感器 网 络 的 许多 方面 。Vasseur 和 Dunkels 
[VD10] 针对 “ 物 联 网 ”如 何 使 用 因特网 协议 实现 传感器 与 其 他 智能 设备 的 互联 提出 了 一 
种 前 回 的 观点 。 

针对 信息 理论 ，Blahut [Bla87] 的 书 是 一 本 很 好 的 人 门 读物 ， 人 
[Sha48] 关于 链 路 容量 的 论文 。 

针对 关于 比特 差错 的 综合 介绍 ， 推 荐 Rao 和 Fujiwara [RF89] 的 书 。 对 于 循环 元 余 
校 验 的 详细 讨论 ， 以 及 硬件 实现 的 问题 ， 可 参考 Peterson 和 Brown 的 书 [PB61]. 

最 后 ,我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 

。 http://standards. ieee. org/ : IEEE 的 各 种 与 网 络 相关 的 标准 的 发 展 状况 ， 包括 以 

太 网 和 802. i. | 
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习题 


1. 画 出 图 2-36 中 所 示 比 特 模式 的 NRZ, SWARA NRZI 编码 。 假 设 NRZI 信号 从 低 电 平 开始 。 
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图 2-36 习题 1 图 


. 给 出 比特 序列 1110 0101 0000 0011 的 4B/5B 编码 ， 以 及 得 到 的 NRZI 信和 号。 


给 出 比特 序列 1101 1110 1010 1101 1011 1110 1110 1111 的 4B/5B 编码 ， 以 及 得 到 的 NRZI 信和 号。 


. 在 4B/5B 编码 〈 见 表 2-2) 中 ， 所 使 用 的 5 比特 编码 中 只 有 两 个 是 以 两 个 0 结尾 的 。 有 多 少 个 可 能 的 5 


比特 序列 〈 被 现存 编码 使 用 或 不 使 用 ) 使 其 满足 最 多 有 一 个 前 导 0 和 最 多 有 一 个 末尾 0 这 一 较 强 的 限 
制 ? 所 有 的 4 比特 序列 都 能 映射 到 这 样 的 5 比特 序列 上 吗 ? 


. 假设 一 个 组 帧 协议 使 用 比特 填充 ， 当 帧 包含 比特 序列 110101111101011111101011111110 时 ， 画 出 链 路 


上 传输 的 比特 序列 并 标记 填充 的 比特 。 


. 假设 一 条 链 路 上 到 达 比 特 序列 1101011111010111110010111110110。 给 出 去 掉 任意 填充 比特 之 后 的 帧 。 


出 可 能 引入 帧 中 的 任何 差错 。 


. 假设 一 条 链 路 上 到 达 比 特 序 列 011010111110101001111111011001111110。 给 出 去 掉 任意 填充 比特 之 后 


的 帧 ， 指 出 可 能 引入 巅 中 的 任何 差错 。 


假设 用 BISYNC 组 帧 协议 发 送 数据 ， 数 据 的 最 后 两 个 字 节 是 DLE 和 ETX。 在 紧邻 CRC 之 前 传送 的 字 


节 序 列 是 什么 ? 


: 对 于 下 列 每 一 种 组 帧 协议 ， 给 出 一 个 字 节 /比特 序列 ， 使 它 肯定 不 会 出 现在 传输 中 。 


(a) BISYNC, 
(b) HDLC, 


w 10. 假设 无 论 何 时 出 现 1 比特 ，SONET 接收 方 就 对 它 的 时 钟 进行 重 同步 ;， 否则 ， 接 收 方 在 它 认为 是 该 比 


Ti; 
pll 


Tə: 


14. 


15. 


特 的 时 间 片 的 中 间 位 置 对 信号 进行 采样 。 

(a) 为 了 能 正确 接收 一 行 中 的 48 个 全 0 字 节 (一 个 ATM 信 元 的 值 );， 要 求 发 送 方 和 接收 方 时 钟 的 相 
对 精确 度 是 多 少 ? mi 

(b) 考虑 一 个 SONET STS-1 线路 上 的 转发 站 A， 它 从 下 游 端 点 B 接收 帧 并 将 它们 向 上 游 重 新 传输 。 
为 了 防止 A 每 分 钟 积累 多 于 一 个 的 额外 帧 ， 要 求 A 和 B 时钟 的 相对 精确 度 是 多 少 ? 

说 明 为 什么 二 维 奇 偶 校 验 可 以 检测 到 所 有 的 3 比特 错 。 | 

给 出 一 个 4 比特 错 的 例子 ， 使 得 如 图 2-14 所 示 的 二 维 奇偶 校 验 无 法 检测 。 通 常 在 哪些 情况 下 检测 不 

到 4 比特 错 ? 

说 明 二 维 奇偶 校 验 为 接收 方 提供 了 足够 的 信息 来 纠正 任意 1 比特 错 〈 假 设 接收 方 知道 具有 1 比特 是 

错 的 ) ， 但 不 能 纠正 任意 2 比特 错 。 E 

说 明 因特网 校 验 和 永远 不 会 是 0xFFFF ( 即 sum 的 最 终 值 不 会 是 0x0000) ， 除 非 缓冲 区 中 的 每 一 字 节 

都 是 0。( 事 实 上 ， 因 特 网 规范 要 求 校 验 和 0x0000 用 OxFFFF 传输 ，0x0000 值 为 省 略 的 校 验 和 保留 。 

注意 ， 在 反 码 运算 中 ，0x0000 和 OxFFFF 都 表示 0 值 。) : 

证 明 除了 在 最 后 的 校 验 和 中 的 字 节 应 该 交换 成 正确 的 顺序 外 ， 书 中 的 因特网 校 验 和 计算 与 字 节 顺序 


os 2 # 





(主机 顺序 或 网 络 顺序 ) 无关 。 特 别 是 ， 以 两 种 字 节 顺序 中 的 任何 一 种 计算 16 位 字 的 校 验 和 。 例 如 
16 位 字 的 反 码 和 (表示 为 十 ') 可 表示 为 | 

FA, B] +’[C, D] +’: +'LY, Z] 
下 面 交换 后 的 和 与 上 面 的 和 一 样 : 

[B，A] +’[D, C] 十 … +HZ, Y] 

16. 假设 由 因特网 校 验 和 算法 使 用 的 一 个 缓冲 区 中 的 一 个 字 节 需要 减 1 〈 例 如 ， 首 部 的 跳 数字 段 ) 。 给 出 
一 个 算法 ， 不 需 重新 扫描 整个 缓冲 区 就 能 计算 修正 的 校 验 和 。 你 的 算法 应 该 考虑 所 讨论 的 字 节 是 低 
PRES. 

x 17. 说 明 因特网 校 验 和 可 以 通过 下 列 方式 计算 ; 首先 对 32 位 单元 中 的 缓冲 区 求 32 位 的 反 码 和 ， 然后 对 

高 半 字 和 低 半 字 求 16 位 的 反 码 和 ， 最 后 同样 对 结果 求 反 。( 为 了 在 32 位 的 补 码 硬件 上 求 32 位 的 反 码 
和 ， 需 要 访问 “溢出 ”位 。) 
18. 假设 要 传输 消息 11001001， 并 用 CRC 多 项 式 x 十 1 防止 它 出 错 。 
(a) 使 用 多 项 式 长 除法 确定 应 传输 的 消息 。 
Cb) 假设 由 于 传输 链 路 上 的 只 声 使 得 消息 最 左 册 的 比特 发 生 反 转 ， 接 收 方 的 CRC 的 计算 结果 是 什么 ? 
接收 方 如 何 知 道 发 生 了 一 个 差错 ? 
v 19. 假设 要 传输 消息 A 1011 0010 0100 1011, 并 用 CRC 多 项 式 cote? tr tl 防止 它 出 错 。 
(a) 使 用 多 项 式 长 除法 确定 应 传输 的 消息 。 
(b) 假设 由 于 传输 链 路 上 的 噪声 使 得 消息 最 左 端 的 比特 发 生 反 转 。 BO CRC 的 计算 吉 果 是 什么 
接收 方 如 何 知 道 发 生 了 一 个 差错 ? 

20. 本 章 提出 的 CRC 算法 需要 许多 比特 操作 。 然 而 ， 通 过 一 种 表 驱 动 方法 ， 可 能 一 etl ate 
式 长 除法 ， 这 使 得 CRC 的 软件 实现 很 有 效 。 这 里 概述 一 次 取 3 比特 进行 长 除法 的 策略 〈 见 表 2-5); 
际 中 ， 我 们 一 次 除 8 比特 ， 表 中 将 有 256 个 条 目 。 | 
令 除 数 多 项 式 C 二 C(x) 为 3 十 xz? 十 1, 或 1101。 为 了 给 C 建 
立 一 个 表 ， 取 每 个 3 比特 序列 p， 在 其 末尾 附加 3 个 0, 然后 p | pooosc | cxe 


| it 
RO 
| on 
)| 浊 
| Ba 
|= 
+ 
所 
O 
0 
O 


4 
o 


RA q=p 000+C, AMA. WS 列 是 乘积 CXg， 它 的 前 0 000 000 
3 个 比特 应 该 等 于 po 001 001 001 101 
(a) 对 于 p=110, HIER =>. .0002 Cys INC ez 010 e '. O11 eee 
相同 的 ;就 是 说 ， 末 端 比特 是 什么 无 关 紧要 。 | 
(b) 填充 表 中 缺少 的 条 目 111 100 011 
Cc) 利用 该 表 ， 用 C 去 除 101 001 011 001 100。 提 示 ; 被 除数 一- 1O 101 110 
的 前 3 比特 是 p 一 101， 所 以 从 表 中 看 出 ， 相 应 的 商 的 前 “一 一- 
比特 是 9 一 110。 在 被 除数 的 第 一 个 3 比特 上 写 下 110，_ 1 | | 


然后 再 从 表 中 将 被 除数 的 前 6 比特 减 去 CXg==101 110, 
3 比特 一 组 继续 进行 。 应 该 没有 余数 。 
太 21. 用 1 个 奇偶 校 验 位 能 够 检测 所 有 的 1 比特 错 。 说 明 如 下 所 示 的 推广 至 少 有 一 种 无 效 : 
Ca) 说明 如 果 消 息 m 的 长 度 是 8 比特 ， 那 么 不 存在 2 比特 的 差错 检测 码 c= e(m) 能 够 检测 所 有 2 比 
特 错 。 提 示 : 考虑 只 有 1 位 是 1 的 所 有 8 比特 消息 的 集合 M; 注意 , RH M 的 任何 消息 能 
成 任何 其 他 食 2 比特 错 的 消息 ， 并 说 明 M 中 的 某 两 个 消息 m 和 xm 一 定 有 相同 的 差错 码 。。 
Cb) 找到 一 个 N 不必 是 最 小 的 ), “使 得 应 用 于 N 比特 块 的 32 比特 差错 检测 码 不 和 8 够 检测 出 改变 到 
最 多 8 比特 的 所 有 差错 。 
22. 考虑 一 个 仅 使 用 否定 确认 帧 (NAK) (RI AEWA (ACK) 的 ARQ 协议 。 描 述 需 要 如 何 安 
排 超时 。 解 释 为 什么 一 个 基于 ACK 的 协议 通常 比 基 于 NAK 的 协议 更 可 取 。 
23. 考虑 在 一 条 40km 的 点 到 点 光纤 链 路 上 运行 的 ARQ 算法 。 
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(a) 计算 链 路 的 传播 延迟 ， 假 设 光 纤 中 的 光速 是 2X108my/s 。 

(b) 提出 一 个 用 于 ARQ 算法 的 合适 的 超时 值 。 

(Cc) 给 定 这 个 超时 值 之 后 ， 为 什么 ARQ 算法 仍 可 能 超时 并 重 传 帧 ? 

假设 你 为 到 月 球 的 一 条 1Mbps 点 到 点 链 路 设计 一 个 滑动 窗口 协议 ， 单 程 时 延 是 1.25s。 假 设 每 帧 携 

带 1 KB 数据 ， 最 少 需要 多 少 比特 作 序 号 ? 

假设 你 为 卫星 站 的 一 条 1Mbps 点 到 点 链 路 设计 一 个 滑动 窗口 协议 ， 卫 星 在 3X104km 的 高 度 绕 地 球 

旋转 。 假 设 每 帧 携带 1KB 数 据 ， 在 下 述 情况 下 ， 最 少 需要 多 少 比特 作 序 号 ? 假设 光速 为 3X108 my/s。 

(a) RWS=1, 

(b) RWS=SWS, | 

本 章 提 出 的 滑动 窗口 协议 可 用 于 实现 流量 控制 。 这 样 做 时 我 们 可 以 想象 接收 方 延迟 几 个 ACK, BIE 

到 有 一 个 空闲 的 缓冲 区 存放 下 一 帧 才 发 送 ACK。 这 样 ， 每 一 个 ACK 将 同时 确认 收 到 最 后 一 帧 并 上告 

诉 源 方 现在 存在 可 用 于 保存 下 一 帧 的 空闲 缓冲 区 。 解 释 为 什么 以 这 种 方式 实现 流量 控制 不 是 一 个 好 

主意 。 

图 2-17 的 停止 -等 待 图 示 中 隐 含 的 含义 是 ， 接 收 方 收 到 重复 的 数据 帧 后 就 立即 重 发 ACK。 假 设 改 为 

接收 方 拥有 自己 的 计时 器 ， 只 有 当期 待 的 下 一 帧 在 超时 间隔 内 没有 到 达 后 它 才 重 传 ACK。 假 设 接收 

方 的 超时 值 是 发 送 方 的 2 倍 ， 画 出 说 明 图 2-17b 一 图 2-17d 中 情形 的 时 间 线 。 假 设 接收 方 的 超时 值 是 

发 送 方 的 一 半 ， 重 画图 2-17c 的 时 间 线 。 

在 停止 -等 待 传输 中 ,假设 收 到 重复 的 ACK 或 数据 帧 后 ， 发 送 方 和 接收 方 都 立即 重 传 上 一 帧 。 这 一 

策略 表面 上 是 合理 的 ， 因 为 收 到 这 种 重复 的 ACK 很 可 能 意味 着 另 一 方 超时 了 。 

(a) 画 一 条 时 间 线 ,说明 如 果 第 一 个 数据 帧 不 知 何 故 重 复 了 ， 但 没有 帧 丢失 时 会 发 生 什 么 情况 。 重 复 
过 程 将 持续 多 和 久 ? 这 种 情况 称 为 “魔术 师 的 学 徒 错误 ”。 

(b) 假设 像 数据 一 样 ， 如 果 在 超时 期 间 内 没有 响应 ，ACK 也 被 重 传 。 同 时 假设 双方 使 用 相同 的 超时 
间隔 。 找 出 一 种 触发 “魔术 师 的 学 徒 错 误 ” 的 合理 情况 。 

给 出 当 接 收 方 用 完 缓冲 区 空间 时 ， 如 何 通 过 让 ACK 携带 额外 的 信息 以 减 小 SWS 来 扩充 带 有 流量 控 

制 的 滑动 窗口 协议 的 一 些 细 节 。 假 设 初始 SWS 和 RWS 都 是 4， 链 路 速度 是 瞬时 的 ， 并 且 接 收 方 能 够 

以 每 秒 一 个 的 速率 释放 缓冲 区 〈 即 接收 方 是 瓶颈 ) 。 用 一 条 传输 时 间 线 说 明 这 个 协议 。 说 明 在 T=0s, 

T 王 1s，…，7T 一 4s 时 会 发 生 什 么 。 eog 

描述 一 个 将 滑动 窗口 算法 和 可 选 ACK 相 结 合 的 协议 。 该 协议 应 该 能 及 时 重 传 ， 但 如 果 一 帧 到 达 时 只 

有 一 个 或 两 个 位 置 次 序 颠 倒 ， 则 不 重 传 。 该 协议 也 应 该 明确 指出 ， 如 果 几 个 连续 的 帧 丢失 了 会 发 生 

什么 。 

对 于 下 列 两 种 情况 ， 画 出 SWS=RWS=3 帧 的 滑动 窗口 算法 的 时 间 线 图 。 使 用 的 超时 间隔 大 约 为 2 义 

RTT. | 

Ca) Wi 4 BA, 

Cb) Wi 4~ tit 6 BA. 


.对 于 下 列 两 种 情况 ， 画 出 SWS=RWS=4 帧 的 滑动 窗口 算法 的 时 间 线 图 。 假设 接收 方 在 未 收 到 期 望 


的 帧 时 发 送 一 个 重复 确认 帧 。 例 如 ， 当 它 希 望 看 到 FRAME [2] 却 收 到 FRAME [3] 时 ， 便 发 送 
DUPACK [2]。 当 接收 方 收 到 一 系列 帧 时 也 发 送 一 个 累积 的 确认 。 例 如 ， 当 它 在 收 到 FRAME [3], 
FRAME [4] #1 FRAME [5] 之 后 又 收 到 丢失 的 FRAME [2]， 便 发 送 ACK [5]。 使 用 的 超时 间隔 
大 约 为 2XRTT。 

(a) 帧 2 丢失 ， 超 时 之 后 重 传 (如 通常 一 样 )。 

b) 帧 2 丢失， 在 收 到 第 一 个 重复 确认 帧 或 超时 之 后 重 传 。 SERS RAN REATS 
速 重 传 ， 某 些 端 到 端 协议 〈 如 TCP 的 变种 ) 使 用 类 似 的 方法 。 

假设 要 运行 SWS=RWS=3 和 MaxSeqNum=5 的 滑动 窗口 算法 。 因 而 ， 第 N 个 分 组 DATA [N] 在 
它 的 序号 字段 中 实际 包含 N mod 5。 给 出 算法 造成 错乱 的 一 个 例子 ， 即 接收 方 期 待 DATA [5] 却 收 


34. 


35. 


36. 


37. 


38. 


39. 


40. 


42. 


= | 2# 


4] DATA [0] (它们 具有 相同 的 发 送 序号 )。 没 有 以 错 序 到 达 的 分 组 。 注意 ， 这 意味 着 MaxSeqNum 
>6 是 充分 必要 条 件 。 
考虑 SWS=RWS=3 的 滑动 窗口 算法 ， 没 有 错 序 到 达 ， 并 具有 无 限 精 度 的 序号 
(a) 说 明 如 果 DATA [6] 在 接收 窗口 内 ， 那么 DATA [0] (或 一 般 而 言 ， 任 意 较 早 的 数据 ) 不 可 能 
到 达 接 收 方 〈 因 此 ，MaxSeqNum 一 6 应 该 是 充分 的 )。 
Cb) 说 明 如 果 能 够 发 送 ACK [6] (或 更 精确 地 说 ，DATA [5] 在 发 送 窗 口内 )， 那 么 收 不 到 ACKL2 
(或 更 早 的 数据 )。 
这 些 是 对 2.5.2 节 中 给 出 的 公式 的 一 个 证 明 ， 是 对 SWS=3 情况 的 详 述 。 注 意 ，(b) we 涪 明 前 一 
个 问题 不 能 反 过 来 包含 无 法 区 分 ACK [0] 和 ACK [5] 的 情况 。 
假设 运行 SWS=5 和 RWS=3 的 滑动 窗口 算法 ， 并且 没有 错 序 到 达 。 


(a) 求 MaxSeqNum 的 最 小 值 。 可 以 假设 下 述 条 件 对 于 求 最 小 的 MaxSeqNum 是 充分 PAY ae DATA 


[MaxSeqNum] 在 滑动 窗口 内 ,那么 DATA [0] 不 会 到 达 
Cb) 给 出 一 个 例子 ， 说明 MaxSeqNum-1 不 是 充分 的 。 
Cc) 给 出 最 小 化 MaxSeqNum 的 通用 规则 ， 用 SWS 和 RWS 表示 。 
假设 通过 一 台中 间 路 由 器 RY A 连接 到 B, WA 2-37 所 示 。A-R 链 路 和 R-B 链 路 在 每 个 方向 上 每 秒 
只 接收 并 传输 一 个 分 组 (因此 两 个 分 组 占用 2s)， 并 且 两 个 方向 独立 传输 。 假 设 A 使 用 SWS=4 的 滑 
oh A A pW ie] B 发 送 。 
(a) 对 于 时 间 T=0, 1, 2,3, 4，5， 指 出 到 达 并 离开 每 个 节点 的 各 个 分 组 ， 或 将 它们 标记 在 一 条 时 间 
RE. 
Cb) 如 果 链 路 上 有 一 个 1.0s 的 传输 延迟 ， 但 立即 接收 到 这 的 所 有 分 组 (即时 延 二 1s 而 带宽 无 限 )， 那 
么 会 发 生 什么 ? 
假设 通过 一 台中 间 路 由 器 尺 将 A 连接 到 B， 如 上 题 。A 一 R 链 路 是 瞬时 的 ,但 R 一 B 链 路 每 秒 只 传输 
一 个 分 组 ,一 次 一 个 (因此 两 个 分 组 占用 2s)。 假 设 A 使 用 SWS=4 的 滑动 窗口 协议 向 B 发 送 。 对 于 
时 间 T=0, 1, 2, 3, 4, 说 明 哪些 分 组 到 达 人 A 和 B 并 从 人 A 和 B 发 出 。R 上 的 队列 会 变 得 多 长 ? 
考虑 上 题 中 的 情况 ， 这 次 假设 路 由 器 队列 长 度 为 1， 即 除了 正在 发 送 的 分 组 外 ， 它 还 能 保存 一 个 分 组 
《在 每 个 方向 上 )。 令 A 的 超时 是 5s，SWS=4。 说 明 从 T=0 直到 第 一 个 满 窗 的 所 有 4 个 分 组 都 被 成 
功 传输 的 每 一 秒 当 中 会 发 生 什 么 。 | | 
当 在 以 太 网 上 的 两 个 主机 共享 一 台 硬 件 地 址 时 会 出 现 什么 类 型 的 问题 ? 描述 会 发 生 什么 情况 以 及 为 
什么 这 些 情况 会 成 为 问题 。 
1982 年 的 以 太 网 规范 允许 任意 两 个 站 点 之 间 的 同 轴 电 表 2-6 各 种 设备 人 关 的 肉 型 延迟 (习题 40) 


缆 最 长 可 达 1 500m， 其 他 点 到 点 链 路 电缆 长 1 000m， 项目 延 B 

并 有 两 个 中 继 器 。 每 个 站 点 或 中 继 器 通过 最 长 50m 的 ” 同 轴 电缆 传播 速度 0. 77c 
“分 接 电缆 ”连接 到 同 轴 电 缆 。 表 2-6 给 出 与 每 个 设备 。 链 路 /分 支 电缆 传播 速度 0. 65c 
相关 的 典型 延迟 〈 其 中 c= 真空 中 的 光速 二 3X103m/ hR 每 个 大 约 0. 6ps 
s) 。 由 列 出 的 设备 源 引起 的 以 比特 度量 的 最 坏 往返 传 MER 每 个 大 约 0. 2ps 


HERES 2? (列表 并 不 完全 ， 其 他 延迟 源 包括 检 
测 时 间 和 信号 上 升 时 间 。) 


» 在 同 轴 电 缆 以 太 网 上 ， 两 个 中 继 器 之 间 的 最 大 距离 被 限制 在 500m， 中 继 器 重新 产生 100% 原 振幅 的 


信号 。 沿 着 一 个 500m 的 网 段 ， 信 号 将 衰减 到 不 低 于 初 值 的 14% (8. 5dB) 。 那 么 ， 沿 着 1 500m 的 网 
段 ， 衰 减 可 能 为 0. 143 一 0.3%。 即 使 沿 着 2 500m 的 网 段 ， 这 样 一 个 信和 号 仍然 是 FT BR HY « 那么 ， 为 什 
么 要 求 每 500m 放置 一 个 中 继 器 ? 

假设 以 太 网 的 往返 传播 延迟 是 46. 4us。 这 就 会 产生 一 个 512 位 的 最 小 分 组 尺寸 (464 位 传播 延迟 十 48 
位 于 扰 信号)。 

Ca) 如 果 延 迟 时 间 保 持 不 变 ， 并 且 发 信号 的 速 ERINA] 100Mbps， 那 么 最 小 分 组 尺寸 会 发 生 什 么 ? 


44. 


45. 


46. 


47. 


48. 


49, 
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(b) 这 人 么 大 的 最 小 分 组 尺寸 的 缺点 是 什么 ? 
Cc) 如 果 兼 容 性 不 是 问题 ， 那么 为 了 允许 更 小 的 最 小 分 组 尺寸， 应 该 怎样 制定 规范 ? 


. A 和 B 是 试图 在 以 太 网 上 传输 的 两 个 站 。 每 个 站 有 一 个 准备 发 送 的 帧 的 稳定 队列 ，A 的 帧 被 编号 为 


Al 、As ， 等 等 ，B 的 帧 类 似 。 令 T=51. 2us 是 指数 退 避 的 基本 单元 。 
假设 A 和 B 同时 想 发 送 帧 1， 导 致 冲突 ， 并 分 别 选 择 退 避 时 间 0X 开 和 1XTT， 这 意味 着 A 在 竞争 中 


获胜 并 传输 Al 而 B 等 待 。 在 这 次 传输 结束 时 ，B 将 试图 重 传 B 而 A 试图 传输 As 。 这 种 首次 尝试 又 


Ue ee es sr nn ke ae 

Ca) 给 出 第 一 次 冲突 后 A 立即 在 第 二 次 退 避 竞争 中 获胜 的 概率 ， 就 是 说 ，A 第 一 次 选择 的 退 避 时 间 
kX51. 2us 小 于 也 的 退 避 时 间 。 

(b) 假设 A 在 第 二 次 退 避 竞争 中 获胜 。A 传输 As ， 当 传输 结束 时 ， 在 A 试图 传输 A 而 了 试图 再 一 
次 传输 Bl 时 ，A 和 B 又 发 生 冲 突 。 给 出 第 一 Wigs e ts ls 次 退 避 竞争 中 获胜 的 概率 。 

(c) 为 A 在 所 有 余下 的 退 避 竞争 中 获胜 的 概率 给 出 一 个 合理 的 下 界 。 

(d) 然后 帧 Bi 发 生 了 什么 ? 

这 种 情形 称 为 以 太 网 的 捕获 效用 Ccapture effect), 

假设 按 如 下 方式 修改 以 太 网 的 传输 算法 ， 在 每 个 成 功 传输 完成 后 ， 主机 等 待 一 或 两 个 时 间 片 之 后 再 

尝试 传输 ， 否 则 采用 常用 方式 退 避 

(a) 解释 为 什么 上 题 的 捕获 效用 现在 变 得 如 此 小 ， 

Cb) 说 明 上 述 策略 现在 如 何 导 致 一 对 主机 捕获 以 太 网 ， 交 蔡 传 输 ， 并 将 第 三 台 主 机 拒 之 门 外 。 

Cc) 提出 一 个 可 供 选 择 的 方法 ， 例 如， 通过 See T 一 个 站 点 的 历史 记录 的 哪些 方面 可 被 
用 作 所 修改 的 退 避 的 参数 ? 

以 太 网 使 用 曼彻斯特 编码 。 假设 共享 以 太 网 的 主机 没有 完全 同步 ， 为 什么 在 没有 等 到 分 组 最 后 的 

CRC 时 就 可 以 检测 出 冲突 ? | 

假设 A、B、C 都 进行 第 一 次 载波 监听 ， 作 为 传输 尝试 的 一 部 分 ， 而 第 4 个 站 D 正在 传输 。 画 出 一 

时 间 线 ,说 明 一 个 可 能 的 传输 、 尝 试 、 冲 突 和 指数 退 避 选择 的 序列 。 这 条 时 间 线 也 应 该 满足 下 列 准 

则 : CL) 初始 传输 尝试 应 该 按 A、B、C 的 顺序 ， 而 成 功 的 传输 应 该 按 按 C、B、A 的 顺序 ; (2) 至 少 应 

该 有 4 个 冲突 。 | 

重复 前 一 道 习 题 ， 现在 假设 以 太 网 是 六 坚持 的 ， p=0. 33 〈 即 线路 成 为 空 亲 时， 等 待 站 立即 用 概率 p 

传输 ， 否 则 推迟 一 个 51. 2us 时 间 片 并 重复 该 过 程 )。 这 条 时 间 线 应 该 满足 准则 :四 初始 传 输 尝试 应 

该 按 A、B、C 的 顺序 ， 而 成 功 的 传输 应 该 按 C、B、A 的 顺序 ; 名 说 明 在 一 条 空闲 线路 上 4 个 延迟 时 

间 片 内 至 少 有 一 个 冲突 ， 并且 至 少 有 一 次 发 送 成 功 。 此 外 要 注意 ， 可 能 有 许多 解决 方案 。 

假设 以 太 网 物理 地 址 是 随机 选择 的 (使 用 真 随机 比特 )。 

(a) 在 一 个 有 1 024 台 主 机 的 网 络 上 ， 两 个 地 址 相同 的 概率 是 多 少 ? 

Cb) 上 述 事件 发 生 在 22 个 网 络 的 某 一 个 或 某 几 个 上 的 概率 是 多 少 ? 

(c) b) 中 的 所 有 网 络 中 23? 台 主机 的 某 一 对 有 相同 地 址 的 概率 是 多 少 ? 

提示 : (a) M (c) 的 解法 就 是 用 于 解决 所 谓 的 生日 问题 的 另 一 种 形式 : 给 定 NN 个人， 其 中 两 个 人 的 

生日 (地 址 ) 相同 的 概率 是 多 少 ? 第 二 个 人 与 第 一 个 人 的 生日 不 同 的 概率 是 1 一 1/365， 第 三 个 人 与 

前 两 个 人 的 生日 不 同 的 概率 是 1 一 2/365， 依 此 类 推 。 因 此 ， 所 有 的 生日 不 同 的 概率 是 


(1— se) x (1— a )X x (1 ) 





对 于 较 小 的 N 大 约 为 
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假设 一 个 以 太 网 上 有 5 个 站 点 在 等 待 另外 的 分 组 传输 结束 。 只 要 分 组 传输 完毕 ，5 个 站 点 就 立刻 开始 
传输 ， 并 导致 冲突 。 
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(a) 模拟 这 种 情况 ， 直 到 这 5 个 等 待 站 点 之 一 成 功 传输 。 使 用 掷 硬 币 或 某 种 其 他 真实 的 随机 源 来 确定 
退 避 时 间 。 进 行 下 列 简化 : 忽略 帧 之 间 的 间距 ， 忽 略 冲突 时 间 的 可 变性 〈 因 此 ， 重 传 总 是 在 
51. 2s 时 间 片 的 一 个 整数 倍 的 时 间 后 进行 )， 并 且 假 设 每 个 冲突 恰好 用 完 一 个 时 间 片 。 

(b) 讨论 模拟 中 的 简化 效果 ， 与 你 可 能 在 一 个 真实 的 以 太 网 上 遇 到 的 行为 作对 比 。 

写 一 个 程序 来 实现 上 面 讨论 的 模拟 ， 这 次 有 N 个 站 点 在 等 待 传输 。 此 外 ， 用 整数 工 模拟 时 间 ， 单 位 

是 时 间 片 ， 并 且 认 为 冲突 占用 一 个 时 间 片 (因此 ， 对 于 跟着 =0 的 退 避 ， 其 工时 刻 的 冲突 将 导致 

T+1 时 刻 的 重 传 尝试 ) 。 对 于 N=20, N=40 和 N=100， 找 出 一 个 站 点 成 功 传输 之 前 的 平均 延迟 。 

你 的 数据 支持 “在 N 中 延迟 是 线性 的 ”这 一 概念 吗 ? 提示 :; 对 于 每 个 站 点 ， 记 录 站 的 NextTimeTo- 

Send 和 CollisionCount。 到 达 时 刻 工时， 只 有 一 个 站 点 的 NextTimeToSend= =T, 那么 你 的 工作 就 

完成 了 。 如 果 没 有 这 样 的 站 点 ， 人 增加 1。 如 果 有 两 个 或 更 多 的 站 点 ， 调 度 重 传 然 后 再 试 。 

假设 N 个 以 太 网 站 同时 试图 发 送 ， 需 要 N/2 个 时 间 片 来 确定 下 次 由 哪个 站 点 传输 。 假 设 平均 分 组 大 

小 是 5 个 时 间 片 ， 将 有 效 带 宽 表示 成 N 的 函数 。 

考虑 下 面 的 以 太 网 模型 。 传 输 尝 试 以 1 个 时 间 片 的 平均 时 间 间 隔 随机 进行 。 特 别 地 ， 连 续 的 尝试 之 

间 的 时 间 间 隔 是 一 个 指数 随机 变量 x 二 一 Alog u, Heth u BER O<u<1 中 随机 选择 的 。 如 果 从 1 一 

1 到 i 十 1 的 范围 内 有 另 一 个 传输 尝试 ， 那么 时 刻 i 的 尝试 导致 冲突 ， 其 中 :是 以 51. 2ps 时 间 片 为 单 

位 来 度量 的 ; 否则 该 尝试 成 功 。 

(a) 对 于 一 个 给 定 的 4 值 ， 写 一 个 程序 ， 模 拟 一 个 成 功 传输 之 前 所 需 的 时 间 片 的 平均 数量 ， 称 为 争 用 
间隔 (contention interval) 。 找 出 争 用 间隔 的 最 小 值 。 注 意 ， 必 须 找 出 一 个 在 一 次 成 功 传输 之 后 
的 传输 尝试 ， 以 便 确定 是 否 存在 冲突 。 忽 略 重 传 ， 因 为 它 可 能 不 符合 上 面 的 随机 模型 。 

(b) 以 太 网 在 争 用 间隔 和 成 功 传输 之 间 交 蔡 。 假 设 成 功 传输 平均 持续 8 个 时 间 片 (512 字 节 )。 利 用 
上 面 的 争 用 间隔 的 最 小 长 度 ， 那 么 理论 上 的 10Mbps 带宽 中 有 多 少 可 用 作 传输 ? 

当 两 个 无 线 节 点 的 距离 间隔 大 于 其 传播 可 达 区 域 时 ， 这 两 个 节点 如 何 才能 通信 ? 

为 什么 在 无 线 网 络 中 做 冲突 检测 要 比 在 有 线 网 络 (如 以 太 网 ) 中 复杂 ? 

在 802. 11 网 络 中 如 何 检测 隐藏 终端 ? 

为 什么 发 生 自然 灾难 时 ， 通 信 中 的 无 线 网 格 拓扑 优 于 基站 拓扑 ? 

为 什么 对 于 传感器 网 络 的 每 个 节点 利用 GPS 获取 位 置 的 方法 不 可 行 ? 请 提供 一 个 实用 的 方法 。 
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自然 界 似 乎 是 通过 多 条 漫长 而 曲折 的 道路 才能 到 达 其 诸多 终点 。 


问题 : 井 不 是 所 有 网 络 都 是 直接 相连 的 


在 前 面 的 章节 中 ， 我 们 看 到 了 如 何 将 一 个 节点 连接 到 另 一 个 节点 或 现 有 网 络 。 许 多 技 
术 可 以 用 于 构建 “最 后 一 英里 ”的 链 路 或 连接 数量 适中 的 节点 ， 但 如 何 建立 全 局 规模 的 网 
络 呢 ? 单个 的 以 太 网 可 以 互联 不 超过 1 024 台 主 机 ， 而 点 对 点 链接 只 能 连接 两 台 主 机 。 无 
线 网 络 受 限于 波段 可 达 的 范围 。 为 了 构建 全 局 网 络 ， 我 们 需要 找到 一 种 连接 不 同类 型 的 互 
联 链 路 和 网 络 的 方法 。 这 种 将 不 同类 型 的 网 络 互联 起 来 构建 一 个 大 型 的 全 球 性 网 络 的 概念 
是 因特网 的 核心 概念 ， 通 常 称 为 网 络 互 联 (internetworking)。 

我 们 可 以 将 网 络 互联 问题 分 解 为 一 些 子 问 题 。 首 先 ， 我 们 需要 一 种 互联 的 途径 。 互 联 
同 种 类 型 链 路 的 设备 通常 被 命名 为 交 挨 机 (switch)， 本 章 首先 讨论 这 些 设备 。 当 前 ， 交 
换 机 中 最 重要 的 一 类 是 那 种 用 来 连接 以 太 网 段 的 交换 机 ， 这 些 交 换 机 有 时 也 称 为 网 桥 
(bridge) 。 交 换 机 的 核心 工作 是 使 分 组 到 达 输 入 端 并 转发 Clorward) 或 交换 (switch) 到 
合适 的 输出 端 ， 使 它们 到 达 适 当 的 目的 地 。 交 换 机 有 很 多 种 方法 为 一 个 分 组 确定 “正确 ” 
的 输出 ， 这 些 方法 大 致 可 以 分 为 无 连接 和 面向 连接 两 类 。 多 年 来 ， 这 两 种 方法 都 有 各 自 的 
重要 应 用 领域 。 | } 
”虽然 已 知 各 种 不 同 的 网 络 类 型 ， 但 我 们 仍然 需要 一 种 途径 来 互联 不 同 的 网 络 和 链接 
(如 异 构 性 处 理 )。 曾 被 称 为 网 关 (gateway) 的 设备 ， 现 在 更 多 地 被 称 为 路 由 器 (router). 
用 于 处 理 不 同类 型 的 网 络 互 联 的 协议 ， 即 网 际 协议 AP, Æ 3. 2 节 的 主题 。 

一 旦 我 们 用 交换 机 和 路 由 器 互联 了 所 有 的 链接 和 网 络 ， 就 可 能 获得 很 多 不 同 的 一 个 点 
到 其 他 点 的 途径 。 通 过 网 络 找 到 合适 的 途径 或 路 由 (route) 也 成 为 网 络 互 联 的 基础 问题 。 
例如 ， 路 径 应 该 是 有 效 的 (比如 最 短 )、 无 回环 且 可 以 处 理 非 静 态 网 络 问题 。 出 现 这 些 问 
题 是 因为 节点 可 能 出 错 或 重启 ， 链 接 可 能 断裂 ， 以 及 需要 增添 新 节点 或 链接 等 。3. 3 节 将 
展望 一 些 已 有 的 处 理 此 类 问题 的 算法 和 协议 。 

一 日 我 们 理解 了 交换 和 路 由 面临 的 问题 ， 我 们 就 需要 一 些 设备 来 执行 这 些 功能 。 本 章 
最 后 总 结 了 一 些 关于 建立 交换 和 路 由 的 讨论 。 虽 然 许 多 分 组 交换 机 和 路 由 器 与 通用 计算 机 
非常 类 似 ， 但 也 有 很 多 专门 的 设计 。 这 一 点 在 高 端 应 用 的 情况 下 尤为 突出 ， 此 时 互联 网 的 
核心 似乎 永 无 止境 地 需要 更 大 、 更 快 的 路 由 器 来 处 理 日 益 增 加 的 传输 负荷 。 
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一 个 多 输入 、 多 输出 的 设备 ， 它 能 由 一 个 输入 端口 传送 分 组 到 一 个 或 多 个 输出 端口 。 交 换 
机 把 一 个 星 形 拓扑 结构 OLA 3-1) 加 到 第 2 章 中 

建立 的 点 到 点 链 路 、 总 线 (以 太 网 ) 和 环形 拓扑 
结构 上 。 星 形 拓 扑 结构 具有 以 下 优点 : 

。 尽管 交换 机 有 固定 数目 的 输入 端口 和 输出 
端口 ， 限 制 了 能 直接 连 到 单 台 交换 机 上 的 
主机 数 ， 但 是 我 们 可 以 通过 互联 多 台 交 换 
机 来 建立 一 个 更 大 的 网 络 。 

。 我 们 可 以 通过 点 到 点 的 链 路 把 交换 机 互 
联 ， 并 把 主机 连接 到 交换 机 上 。 通 常情 况 
下 ， 这 意味 着 我 们 可 以 建立 一 个 地 理 范围 
很 大 的 网 络 。 

。 在 将 一 台新 主机 连 到 交换 机 上 使 之 加 入 网 \ 
络 时 ， 并 不 意味 着 已 和 网 络 相 连 的 主机 的 ” ”图 3-1 由 交换 机 构成 的 星 形 拓扑 
性 能 会 变 差 ， | | 

”最 后 一 点 不 适用 于 第 2 章 中 讨论 的 共享 介质 网 络 。 例 如 ， 位 于 同一 个 以 太 网 上 的 两 台 
主机 继续 以 10Mbps 传输 数据 是 不 可 能 的 ， 因 为 它们 共享 相同 的 传输 介质 。 交 换 网 中 每 台 
主机 都 有 一 条 到 交换 机 的 链 路 ， 所 以 许多 主机 以 全 链 路 速度 (带宽) 传输 数据 是 完全 可 能 
的 ， 只 要 交换 机 的 设计 具有 足够 的 总 容量 。 交 换 机 的 设计 目标 之 一 就 是 提供 高 吞吐 量 ， 我 
们 在 下 面 再 讨论 这 个 问题 。 总 之 ， 交换 网 比 共 享 介 质 网 更 具 可 扩展 性 (scalable) , 即 具 备 
增加 更 多 节点 的 能 力 ， 因 为 交换 网 支持 更 多 主机 以 全 链 路 速度 传输 数据 。 

交换 机 被 连接 到 许多 链 路 上 ， 为 了 与 链 路 另 一 端的 节点 进行 通信 ， 每 一 条 链 路 都 运行 
相应 的 数据 链 路 协议 。 交 换 机 的 主要 工作 就 是 在 它 的 一 条 链 路 上 接收 输入 分 组 ， 再 把 这 些 
分 组 从 其 他 的 链 路 上 传输 出 去 。 采 用 OSI 体系 结构 中 的 术语 ， 这 种 功能 有 时 也 称 为 交换 
(switching) 或 转发 (forwarding)， 这 是 网 络 层 的 主要 功能 。 

问题 是 交换 机 如 何 决 定 把 每 个 分 组 放 到 哪 一 个 输出 链 路 上 呢 ? 一 般 的 解决 方法 是 交换 机 
查看 分 组 首部 中 的 标识 符 ， 通 过 这 个 标识 符 来 做 出 决定 。 使 用 这 个 标识 符 的 方法 多 种 多 样 ， 
但 是 有 两 种 常用 的 方法 。 第 一 种 是 数据 报 (datagram) 或 称 无 连接 (connectionless) 的 方法 ， 
第 二 种 是 虚 电 路 (virtual circuit) 或 称 面 向 连接 (connection) 的 方法 。 第 三 种 方法 不 如 前 两 
种 常用 ， 称 为 源 路 由 (source routing) ， 但 它 最 容易 解释 并 且 确 实 有 一 些 有 用 的 应 用 。 

所 有 网 络 都 需要 采用 一 种 方法 来 标识 端 节 点 ， 这 种 标识 符 通常 称 为 地 址 (address) 。 
在 第 2 章 中 ， 我 们 已 经 见 过 几 个 地 址 的 实例 。 例 如 以 太 网 中 使 用 的 48 位 地 址 。 对 于 以 太 
网 中 的 地 址 ， 唯 一 的 要 求 就 是 网 络 中 不 存在 具有 相同 地 址 的 两 个 节点 ， 这 通过 确保 所 有 的 
以 太 网 卡 都 有 一 个 全 局 唯一 〈globally unique) 标识 符 来 实现 。 在 下 面 的 讨论 中 ， 我 们 假 
设 每 一 台 主 机 都 有 一 个 全 局 唯一 的 地 址 。 以 后 ， 我 们 会 考虑 地 址 的 其 他 有 用 特性 ， 但 作为 
讨论 的 起 点 ， 地 址 的 全 局 唯一 性 就 足够 了 。 

我 们 需要 做 的 另外 一 个 假设 就 是 有 一 些 方法 可 用 来 标识 每 台 交 换 机 的 输入 和 输出 端 
门 。 至 少 有 两 种 实用 的 端口 标识 方法 : 一 种 是 给 每 个 端口 进行 编号 ， 另 一 种 是 用 输入 和 给 
出 端口 所 连接 的 节点 〈 交 换 机 或 主机 ) 的 名 字 标 识 来 识别 端口 。 现 在 ， 我 们 使 用 给 端口 编 
号 的 方法 。 








数据 报 的 思想 非常 简单 只 需 确 保 每 个 分 组 带 有 足够 的 信息 ， 使 得 任何 一 台 交 换 机 都 
能 决定 怎样 使 它 到 达 目 的 地 。 这 就 是 说 ， 每 个 分 组 都 带 有 完整 的 目的 地 址 ， 考查 图 3-2 中 
的 例子 。 在 这 个 例子 中 ， 主 机 的 地 址 为 A、B、C 等 ， 要 决定 怎样 转发 一 个 分 组 ， 交 换 机 
需要 查阅 转发 表 (forwarding table) (有 时 称 为 路 由 表 (routing table))。 表 3-1 给 出 路 由 
表 的 一 个 例子 。 这 张 特定 的 表 显 示 交 换 机 2 在 转发 上 例 中 的 数据 报时 所 需 的 转发 信息 。 当 
你 对 这 里 描述 的 简单 网 络 有 了 完全 的 了 解 后 ， 驶 很 容易 画 出 这 样 的 一 张 表 ， 我 们 可 以 想象 
这 张 表 是 由 网 络 管理 员 静 态 做 出 的 。 但 是 ， 对 于 有 动态 变化 的 拓扑 结构 和 有 多 条 路 径 可 到 
达 目 的 地 的 大 型 复杂 网 络 ， 建 立 转 发 表 就 变 得 很 困难 。 这 个 更 难 的 问题 称 为 路 由 《rou- 
ting), Æ 3. 3 万 讨论 的 主题 。 我 们 可 以 把 路 由 选择 看 作 是 在 这 种 背景 下 发 生 的 过 程 ， 当 数 
据 分 组 到 达 时 ， 在 转发 表 中 能 够 获得 正确 信息 来 转发 或 交换 分 组 。 


主机 D 
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图 3-2 数据 报 转发 的 网 络 示例 
数据 报 网 络 有 以 下 特点 : 表 3-1 交换 机 2 的 转发 表 
。 一 台 主 机 无 论 何 时 都 可 以 发 送 分 组 ， 因为 任何 到 达 交 目的 地 woo 
换 机 的 分 组 都 能 立即 转发 (假设 正确 建立 了 转发 表 )。 2 


正 因为 如 此 ， 数 据 报 网 络 也 称 为 无 连接 的 〈connec- 
tionless)。 这 和 面向 连接 (connection-oriented) 的 网 
络 不 同 ， 因 为 面向 连接 网 络 在 发 送 第 一 个 数据 分 组 之 
前 需要 建立 其 种 连接 状态 (connection state), 

。 当 一 台 主 机 发 送 一 个 分 组 时 ， 主 机 无 法 知道 网 络 是 否 
可 以 传送 该 分 组 或 目的 主机 是 否 可 以 接收 。 
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。 每 个 分 组 的 转发 都 是 独立 于 前 面 的 分 组 的 ， 哪 怕 这 几 个 分 组 有 可 能 传送 到 相同 的 
目的 地 。 这 样 ， 从 主机 A 到 主机 B 的 两 个 连续 的 分 组 可 能 沿 着 完全 不 同 的 路 径 
(也 许 是 由 于 网 络 中 某 台 交换 机 更 改 了 转发 表 ) 进行 传送 。 
。 当 一 台 交 换 机 或 一 段 链 路 出 现 故障 时 ， 如 果 有 可 能 在 故障 点 周围 找到 一 条 可 替代 
的 路 径 ， 并 相应 地 更 新 转发 表 ， 那 么 对 通信 并 不 会 产生 任何 严重 的 影响 。 | 
最 后 一 点 对 于 数据 报 网 络 的 历史 发 展 尤其 重要 。 因 特 网 最 重要 的 设计 目标 之 一 是 具有 
应 对 错误 的 健壮 性 ， 历 史 证 明 数 据 报 有 效 地 达到 了 这 个 目标 9 。 


3.1.2 虚 电 路 交换 


第 二 种 明显 不 同 于 数据 报 模 式 的 分 组 交换 技术 采用 了 虚 电 路 (Virtual Circuit, VC) 
的 概念 。 这 种 方法 也 称 为 面向 连接 模式 (connection-oriented model) ， 它 要 求 在 发 送 数 据 
之 前 首先 在 源 主机 和 目的 主机 之 间 建 立 一 条 虚 连 接 。 为 了 理解 它 的 工作 原理 ， 考 虑 图 3-3, 
图 中 主机 A 想 把 分 组 发 送 到 主机 B。 我 们 可 以 把 它 看 作 一 个 两 阶段 的 处 理 过 程 ， 第 一 个 阶 
段 是 “建立 连接 *， 第 二 个 阶段 是 传输 数据 。 我 们 分 别 予 以 考虑 。 





图 3-3 虚 电 路 网 络 的 例子 


在 建立 连接 阶段 ， 需 要 在 源 主机 和 目的 主机 之 间 的 每 一 台 交 换 机 上 建立 “连接 状态 ”。 
连接 状态 由 连接 经 过 的 每 台 交 换 机 中 的 “VC 表 ” 记 录 组 成 。 交 换 机 上 的 VC 表 中 的 一 条 
记录 包括 : 

。 虚 电 路 标识 符 (Virtual Circuit Identifier，VCI) ， 在 这 人 台 交 换 机 上 唯一 标识 连接 ， 

并 且 将 放 在 属于 这 个 连接 的 分 组 首部 内 传送 。 

© 从 这 个 VC 到 达 交 换 机 的 分 组 的 输入 接口 。 

“。 从 这 个 VC 离开 交换 机 的 分 组 的 输出 接口 。 

。 用 于 输出 分 组 的 一 个 可 能 不 同 的 VCI。 

这 样 一 条 记录 的 语义 如 下 ， 如 果 分 组 在 指定 的 输入 接口 到 达 并 且 首 部 包含 指定 的 VCI 
值 ， 那 么 先 将 这 个 分 组 的 首部 VCI 替换 成 指定 的 输出 VCI 并 将 分 组 发 送 到 指定 的 输出 端口 。 

注意 ， 交 换 机 收 到 的 分 组 的 VCI 和 收 到 分 组 的 接口 的 组 合 唯一 标识 这 个 虚 连 接 。 当 
oR, 在 一 台 交 换 机 上 可 能 会 同时 建立 许多 虚 连 接 。 我 们 可 以 观察 到 ,输入 的 VCI 值 和 输 


@ 再 次 声明 : ARPANET 是 为 对 抗 核 打击 而 构造 的 这 一 说 法 虽然 没有 得 到 其 实际 设计 人 员 的 证 实 ， 但 应 对 各 个 
构件 错误 的 健壮 性 的 确 是 其 目标 之 一 。 


出 的 YCI 值 一 般 不 同 。 所 以 ， 对 于 一 个 连接 来 讲 ，VCI 不 是 全 局 意义 的 标识 符 ， 而 只 是 
在 一 段 给 定 链 路 上 有 意义 ， 即 它 具 有 和 链 路 局 部 范围 (link-local scope). 

当 要 建立 一 个 新 连接 时 ， 在 连接 所 要 经 过 的 每 段 链 路 上 分 配 一 个 新 的 VCI 值 。 我 们 
也 要 确保 在 一 段 链 路 上 选 定 的 VCI 的 值 未 被 该 链 路 上 已 存在 的 某 个 连接 使 用 。 

建立 连接 状态 有 两 大 类 方法 。 一 类 是 由 网 络 管理 员 配 置 连接 状态 ， 这 样 的 虚 电 路 是 
“永久 的 ?。 目 然 ， 管 理 员 也 可 以 删除 它 ， 因 此 永久 虚 电 路 (Permanent Virtual Circuit, 
PVC) 最 好 看 作 长 期 生存 的 或 可 管理 配置 的 VC。 另 一 类 是 主机 发 送 消息 给 网 络 以 建立 连 
接 状态 。 发 送 的 消息 称 为 信 令 〈signalling)， 这 样 建立 的 虚 电 路 称 为 是 交换 的 
(switched) 。 一 个 交换 的 虚 电 路 (SVC) 的 突出 特性 是 主机 可 以 动态 地 建立 和 删除 这 个 虚 
电路 ， 而 不 需要 网 络 管理 员 的 参与 。 注 意 ，SVC 应 该 更 准确 地 称 作 信 令 (signalled) 虚 电 
路 ， 因 为 它 使 用 信 令 (而 不 是 交换 ) 的 方式 ， 这 正 是 SVC 与 PVC 的 区 别 。 

我 们 假设 网 络 管理 员 想 手工 创建 一 条 从 主机 A 到 主机 B 的 新 的 虚 连 接 。 首 先 ， 管理 
员 要 标识 一 个 从 A 到 B 经 过 网 络 的 路 径 ， 在 图 3-3 的 网 络 例子 中 只 有 一 条 路 径 ， 但 在 一 般 
情况 下 可 能 不 是 这 样 。 然 后 管理 员 在 连接 的 每 段 链 路 上 选择 一 个 当前 没有 使 用 的 VCI 值 。 
为 达到 例子 的 目的 ， 假 设 从 A 到 交换 机 1 链 路 的 VCI 值 选 为 5， 从 交换 机 1 到 交换 机 2 链 
路 的 VCI 值 选 为 11。 在 这 种 情况 下 ， 交换机 1 在 VC 表 中 需要 有 一 条 配置 成 如 表 3-2 中 所 
示 的 记录 。 

表 3-2 交换 机 1 的 虚 电 路 表 条 目 


类 似 地 ， 假 设 标识 从 交换 机 2 到 交换 机 3 链 路 连接 的 VCI 值 选 为 7， 从 交换 机 3 到 主 
机 B 链 路 的 VCI 值 选 为 4。 这 样 交 换 机 2 和 交换 机 3 需要 配置 的 VC 表 记 录 如 表 3-3 所 示 。 
注意 一 台 交 换 机 的 输出 VC 值 就 是 下 一 人 台 交 换 机 的 输入 VCI E. 
一 日 VC 表 建 立 ， 就 可 以 进入 数据 传输 阶段 ， 如 图 3-4 所 示 。 对 于 每 一 个 欲 发 送 到 主 
机 B 的 分 组 ， 主 机 A 将 值 为 5 的 VCI 放 人 分 组 首部 并 发 送 到 交换 机 1。 交 换 机 1 在 接口 2 
上 接收 每 个 这 样 的 分 组 ， 它 使 用 这 个 接口 号 和 分 组 首部 中 VCI 的 组 合 来 找到 相应 的 VC 表 
记录 。 如 表 3-2 所 示 ， 本 例 的 表 记 录 指 示 交 换 机 1 用 接口 1 发 送 分 组 ， 并 在 发 送 分 组 时 将 
分 组 首部 的 VCI 赋值 11。 这 样 ， 这 个 分 组 携带 值 为 11 的 VCI 从 接口 3 到 达 交 换 机 2。 交 
换 机 2 在 它 的 VC 表 中 查找 接口 3 和 VCI 值 为 11 的 记录 (如 表 3-3 所 示 )， 将 分 组 首部 的 
VCI 值 作 相应 的 更 改 后 发 到 交换 机 3， 如 图 3-5 所 示 。 此 过 程 继续 ， 直 到 分 组 携带 值 为 4 
的 VCI 到 达 主 机 B。 主 机 B 由 此 识别 这 个 分 组 来 目 主机 A. 
| 3-3 ”交换 机 2 和 交换 机 3 的 虚 电 路 表 条 目 
交换 机 2 的 VC 表 条 目 





; 
交换 机 3 的 VC 表 条 目 
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图 3-4 分 组 被 发 送 到 虚 电 路 网 络 


在 具有 相当 规模 的 真实 网 络 中 ， 使 用 上 述 过 程 在 大 量 交换 机 中 正确 配置 VC 表 ， 很 快 
就 会 不 堪 重 负 。 因 此 ， 我 们 几乎 总 是 使 用 网 络 管理 工具 或 某 种 信 令 方法 ， 即 使 建立 “ 永 
久 ” 的 VC 也 是 如 此 。 在 PVC 的 情况 下 ， 信 令 由 管理 员 发 起 ， 而 SVC 通常 是 使 用 其 中 一 
台 主 机 的 信 令 建立 的 。 现 在 ， 我 们 考虑 怎样 用 来 自主 机 的 信 令 建立 刚才 描述 的 VC。 

为 了 开始 发 信 令 的 过 程 ， 主 机 A 发 送 一 个 建立 消息 给 网 络 ， 即 发 给 交换 机 1。 这 个 建 
立 消息 中 包含 主机 B 的 完整 的 目的 地 址 。 建 立 消息 需要 获得 到 达 B 的 整个 路 径 ， 以 此 建立 
路 径 上 每 台 交换 机 中 必需 的 连接 状态 。 我 们 可 以 看 到 传送 建立 消息 给 主机 B 很 像 传送 数据 
报 给 主机 B， 其 中 交换 机 必须 知道 用 哪个 输出 端口 发 送 建 立 消息 才能 使 它 最 终 到 达 B. M 
在 ， 我 们 假设 交换 机 知道 足够 的 网 络 拓扑 结构 ， 使 得 建立 消息 在 最 终 到 达 B 之 前 依次 经 过 
交换 机 2 和 交换 机 3。 





主机 B 


主机 A | PE 
| 图 3-5 “分 组 穿越 虚 电路 网 络 


交换 机 1 接收 到 连接 请 求 时 ， 除 了 将 此 请 求 发 送 给 交换 机 2 之 外 ， 还 为 这 个 新 连接 在 
它 的 虚 电 路 表 中 创建 一 个 新 的 记录 。 这 个 记录 和 前 面 表 3-2 所 示 的 一 样 。 主 要 区 别 是 在 接 
口上 赋值 一 个 未 用 VC 值 的 工作 是 由 交换 机 完成 的 。 在 本 例 中 ， 交 换 机 取 值 为 5。 当 前 虚 
电路 表 含 有 以 下 信息 :“ 当 到 达 端 口 2 的 分 组 标识 符 为 5 时， 从 端口 1 发 送 它们 。” 另 一 个 
问题 在 于 ， 主 机 A 需要 知道 将 值 为 5 的 VCI BARBRA B 的 分 组 中 。 下 面 ， 我 们 将 看 
到 这 个 过 程 是 怎样 发 生 的 。 | 

在 交换 机 2 接收 到 建立 消息 后 ， 它 执行 一 个 类 似 的 过 程 ， 本 例 中 选择 11 作为 输入 的 
VCI 值 。 同 样 ， 交 换 机 3 选择 7 作为 输入 VCI 的 值 。 每 台 交 换 机 可 以 给 VCI 取 任 意 值 ， 
只 要 这 个 值 是 交换 机 端口 上 的 其 他 连接 不 使 用 的 。 如 前 面 提 到 的 ，VCI 具有 “ 链 路 局 部 范 
围 ， 就 是 说 它们 没有 全 局 意义 。 | 

最 后 ， 建 立 消息 到 达 主 机 B。 假 设 主机 B 正常 且 愿 意 与 主机 A 建立 连接 ， 它 也 分 配 一 
个 输入 VCI 值 ， 本 例 中 是 4。 主 机 B 用 这 个 值 识别 所 有 来 自主 机 A 的 分 组 。 | 
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现在 ， 为 了 完成 连接 ， 每 一 个 节点 都 需要 知道 它 的 下 游 相 邻 节 点 为 此 连接 使 用 的 VCI 
值 。 主 机 B 给 交换 机 3 发 送 一 个 连接 建立 的 确认 消息 ， 此 消息 包含 它 选 取 的 VCI 值 d). 
现在 交换 机 3 可 以 完成 此 连接 的 虚 电 路 表 记 录 ， 因 为 它 知道 输出 VC 的 信 必 定 是 4 。 交 换 
机 3 发 送 确认 消息 给 交换 机 2， 并 指定 VCI 值 为 7。 交换 机 2 发 送 消息 给 交换 机 1， 指 定 
VCI 值 为 11。 最 后 ， 交 换 机 1 将 确认 消息 传递 给 主机 A， 通 知 它 这 之 个 连接 使 用 的 VCI fE 
Di es 
到 此, 每 个 节目 都 知道 从 主机 从. 冯 主 宙 日 通信 的 所 有 必需 信息 ;每 台 交换 机 内 虱 
与 连接 有 关 的 完整 的 虚 电 路 表 记 录 。 而 且 ， 主机 A 得 到 了 肯定 的 确认 ， 知 道 到 达 主 机 B 
的 整 条 路 径 上 的 每 件 事 都 已 准备 好 。 这 时 ， 连 接 表 记录 已 经 存放 在 所 有 三 台 交 换 机 内 ， 正 
像 上 述 例子 中 管理 员 配 置 的 那样 。 但 响应 主机 A 发 出 的 信 令 消息 的 整个 过 程 是 自动 发 生 
的 。 现 在 数据 传输 阶段 可 以 开始 了 ， 而 且 和 在 PVC 情况 下 的 用 法 相同 。 
当主 机 A 不 想 再 发 送 数据 给 主机 B 时 ， 它 通过 给 交换 机 1 发 送 一 个 撤销 连接 的 消息 
来 撤销 连接 。 交 换 机 1 从 虚 电 路 表 中 删除 相关 记录 ， 并 把 撤销 信息 转发 给 路 径 上 的 其 他 交 
换 机 ， 下 一 台 交 换 机 同样 也 删 去 表 中 相应 记录 。 如 果 现 在 主机 A 再 发 送 一 个 VCI 为 5 的 
分 组 到 交换 机 1， 这 个 分 组 就 会 被 丢弃 ， 就 像 连 接 根 本 不 存在 一 样 。 | 
对 于 虚 电路 交换 还 要 说 明 几 点 
。 由 于 主机 A 在 发 送 第 一 个 数据 分 组 之 前 ， 必 须 等 待 连接 请 求 到 达 网 络 最 远 端 并 返 
” 回 ， 所 以 在 发 送 数 据 前 至 少 有 一 个 RTT 的 延迟 8， | 
ee er eee 
非常 大 ) ， 但 每 一 个 数据 分 组 仅 带 有 一 个 很 小 的 标识 符 ， 这 个 标识 符 只 在 一 段 链 路 
上 是 唯一 的 。 这 样 ， rai tarball 
。 如 果 一 个 连接 上 有 一 台 交 换 机 或 有 一 条 链 路 出 现 故障 ， 连 接 就 会 被 破坏 ， 这 样 就 
需要 建立 一 个 新 的 连接 。 同 时 需要 撤销 原来 的 连接 ， 释 放 交 换 机 中 虚 电 路 表 的 存 
储 空间 。 | a ee 
。 REST- ARRIE RREA 条 链 路 上 传输 连接 请 求 的 问题 。 其 实 这 和 
数据 报 转 发 时 建立 转发 表 是 同一 个 问题 ， 需 要 某 种 路 由 算法 routing algorithm). 
路 由 选择 在 3. 3 节 描 述 ， 其 中 提 到 的 算法 对 于 路 由 建立 请 求 和 数据 报 是 可 通用 的 。 
虚 电 路 的 优点 之 一 是 主机 在 发 送 数据 前 知道 许多 网 络 信息 。 例 如 ， 主 机 知道 真正 存在 
一 条 到 接收 方 的 路 径 ， 接 收 方 愿意 也 能 够 接收 数据 ， 并 且 在 建立 虚 电 路 时 也 可 以 把 资源 分 
配给 虚 电 路 。 例 如 ，X. 25 网 络 是 早期 的 〈 现 在 几乎 废弃 ) 一 种 基于 虚 电 路 的 网 络 技术 。 
X. 25 网 络 采 用 的 策略 有 以 下 三 部 分 : 
1) 在 初始 化 虚 电 路 时 ， 把 缓存 区 分 配给 每 一 个 虚 电 路 。 
2) 在 虚 电 路 的 每 对 节点 之 间 使 用 滑动 窗口 协议 ( 见 2.5 节 ) 来 进行 流量 控制 ， 该 协 
议 是 为 了 防止 发 送 节 点 使 接收 节点 分 配 的 缀 冲 区 洲 出 。 
3) 当 连 接 请 求 消息 传送 到 没有 足够 的 缓冲 区 的 某 个 节点 时 ， 建立 虚 电 路 的 请 求 被 
拒绝 。 
在 实施 这 三 项 策略 的 过 各 中， 每 个 节点 都 应 保证 有 尽 名 的 组 六 区 | 以 供 到 达 电 路 的 分 


昌 ”这 并 不 是 完全 真实 的 。 一 些 人 提出 的 “高 效 ” 方 法 为 : 在 收 到 一 个 连接 请 求 时 马上 发 送 一 个 数据 分 组 。 然而 ， 
很 多 当前 的 系统 实现 是 在 发 送 数据 之 前 先 建立 连接 。 
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组 排队 所 需 。 这 种 基本 的 策略 称 为 逐 跳 流量 控制 (hop-by-hop flow control). 

比较 起 来 ， 数 据 报 网 络 没有 建立 连接 阶段 ， 且 每 台 交换 机 独立 处 理 每 个 分 组 ， 这 使 得 
数据 报 网 络 如 何 用 有 效 方法 分 配 资源 的 问题 得 以 淡化 。 而 每 个 到 达 的 分 组 与 其 他 分 组 竞争 
缓冲 区 空间 的 问题 却 突显 出 来 。 如 果 没 有 空闲 的 缓冲 区 ， 接 收 的 分 组 必须 被 丢弃 。 但 是 我 
们 注意 到 ， 即 使 在 基于 数据 报 的 网 络 中 ， 源 主机 也 经 常 发 送 一 组 分 组 到 同一 目的 主机 。 每 
台 交 换 机 可 以 根据 源 节点 /目标 节点 对 区 分 已 排队 的 分 组 ， 这 样 交 换 机 可 以 保证 属于 每 个 
源 节点 /目标 节点 对 的 分 组 公平 地 共享 缓冲 区 。 我 们 在 第 6 章 对 此 做 更 深入 的 讨论 。 

在 虚 电路 模式 中 ， 我 们 可 以 设想 给 每 个 虚 电路 提供 不 同 的 服务 质量 (Quality of Serv- 
ice，QoS) 。 在 这 种 背景 下 ， 服 务 质量 这 个 术语 通常 意味 着 网 络 可 为 用 户 提供 多 种 与 性 能 
有 关 的 保证 ， 反 过 来 也 意味 着 交换 机 必须 留 出 足够 的 资源 来 满足 这 种 保证 。 例 如 ， 一 个 给 
定 虚 电路 中 的 交换 机 把 每 个 对 应 输出 链 路 的 带宽 的 百 分 之 几 分 配给 这 段 电 路 。 另 一 个 例子 
是 一 组 交换 机 可 以 保证 沿 一 条 特定 虚 电 路 传输 的 分 组 的 延迟 〈 排 队 ) 不 会 超过 一 定 的 时 
间 。 我 们 在 6. 5 节 再 讨论 服务 质量 的 问题 。 





拥塞 简介 

交换 机 设计 者 必须 要 面 对 的 一 个 重要 问题 是 争 用 (contention)。 当 多 个 分 组 在 一 全 交换 
机 中 排队 时 就 会 出 现 争 用 ， 因 为 它们 在 竞争 相同 的 输出 链 路 。 我 们 在 1.4 节 中 讨论 交换 机 如 
何 处 理 这 个 问题 。 可 以 想象 争 用 发 生 在 独立 分 组 达到 的 时 间 段 里 。 而 与 之 相反 ， 拥 塞 发 生 在 
一 段 更 长 的 时 间 段 里 。 当 交换 机 中 排队 的 分 组 太 多 而 占用 了 所 有 的 缓冲 区 空间 时 ， 交 换 机 不 
得 不 丢弃 一 些 分 组 。 我 们 在 了 解 了 网 络 体系 结构 的 传输 协议 部 分 之 后 ， 在 第 6 章 中 再 讨论 拥 
塞 。 但 是 目前 我 们 看 到 ， 网 络 处 理 拥 塞 的 方式 是 与 采用 虚 电 路 还 是 采用 数据 报 相关 的 。 

一 方面 ， 假 设 每 一 台 交 换 机 分 配 足够 的 缓冲 区 来 处 理 它 支 持 的 每 一 条 虐 电 路 上 的 分 
组 ， 像 义 . 25 网络 中 所 做 的 那样 。 这 样 ， 网 络 中 就 不 存在 拥塞 的 问题 了 ， 因 为 交换 机 不 可 
能 处 于 这 样 一 种 状态 排队 的 分 组 比 交换 机 缓存 空间 还 要 多 。 因 为 在 这 种 网 络 中 ， 如 果 它 
不 能 给 连接 提供 足够 的 资源 来 避免 拥塞 的 发 生 ， 那 么 从 一 开始 交换 机 就 不 允许 该 连接 的 建 
立 。 然 而 ， 这 种 方法 的 弊端 在 于 极度 保守 一 一 在 同一 时 刻 ， 所 有 的 虚 电 路 不 可 能 都 使 用 它 
们 的 缓冲 区 ， 因 此 ， 降 低 了 交换 机 的 利用 率 。 

另 一 方面 ， 数 据 报 模式 看 上 去 会 引起 拥塞 ， 因 为 直到 缓冲 区 用 尽 以 致 于 产生 了 拥塞 ， 
你 才 知 道 在 交换 机 中 有 如 此 多 的 竞争 。 这 时 ， 要 阻止 拥塞 已 经 太 迟 了 ， 唯 一 的 选择 就 是 如 
何 从 拥塞 中 恢复 。 所 幸 的 是 ， 因 为 不 用 为 不 可 能 发 生 的 最 坏 情 况 预 留 缓 冲 区 ， 所 以 能 够 更 
好 地 利用 交换 机 。 | 

正如 在 很 多 常见 的 情况 一 样 ， 没 有 严格 的 对 与 错 。 不 产生 拥塞 (如 X25 网 络 模式 ) 
和 产生 拥塞 后 再 去 处 理 〈 像 简单 的 数据 报 模式 ) 的 方法 各 有 利 兽 。 我 们 在 第 6 章 中 再 研究 


KERTH. 


近年 来 基于 虚 电 路 技术 有 很 多 很 成 功 的 技术 ， 特 别 是 X 25、 帧 中 继 和 异步 传输 模式 
(ATM)。 然 而 今天 ， 虽然 因 特 网 的 无 连接 模型 获得 了 很 大 的 成 功 ， 但 并 没有 得 到 大 面积 - 
的 应 用 。 近 年 来 最 普遍 的 虚 电 路 应 用 是 构造 虚拟 专用 网 (Virtual Private Network, 
VPN)， 这 个 主题 将 在 3. 2. 9 节 中 讨论 。 这 种 应 用 在 当前 基于 因特网 的 技术 中 得 到 广泛 
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文 持 。 





光 交 换 | 

对 于 2000 年 前 后 的 网 络 行业 观察 者 来 说 ， 光 交换 可 能 是 最 有 趣 的 交换 形式 。 由 于 多 
种 因素 的 共同 作用 ， 光 交换 的 确 在 20 世纪 90 年 代 末 成 为 一 种 重要 的 交换 技术 。 一 种 因素 
是 密集 波 分 多 路 复 用 (Dense Wavelength Division Multiplexing, DWDM) 设备 的 商用 化 ， 它 
同时 以 大 量 不 同 长 度 的 光波 (或 颜色 ) 传输 信号 ， 使 一 条 光纤 上 能 够 发 送 大 量 数据 。 举 例 来 
说 ， 你 可 以 以 100 个 或 更 多 不 同 波长 来 发 送 数据 ， 而 每 个 波长 可 能 携带 高 达 10 Gbps 的 数据 。 

另 一 个 因素 是 光 放 大 器 的 商用 化 。 光 信号 在 通过 光纤 时 会 衰减 ， 经 过 一 段 距离 (大约 
40 公里 左右 ) 后 需要 用 某 种 方法 使 它们 变 得 更 强 。 在 有 光 放 大 器 之 前 ， 必 须 在 通路 上 放 
署 中 继 器 来 恢复 光 信 号 ， 把 它 转 换 成 数字 电信 号 ， 然 后 再 转换 回 光 信 号 。 在 把 数据 送 入 中 
继 器 前 ， 必 须 用 DWDM 终端 对 其 进行 多 路 分 解 。 这 样 ， 在 长 距离 上 就 需要 用 很 多 DWDM 
终端 来 驱动 一 对 光纤 。 不 同 于 中 继 器 ， 光 放大 鼎 是 模拟 (analog) 设备 ， 它 增强 任何 在 光 
纤 上 发 送 的 信号 ， 即 使 这 些 信 号 是 以 100 个 不 同 波长 发 送 的 。 光 放大 器 使 DWDM 装置 显 
得 更 有 吸引 力 ， 因 为 如 今 一 对 相隔 几 百 公里 的 DWDM 终端 也 可 以 相互 通信 。 而 且 ， 你 可 
以 在 两 端 升 级 DWDM 装置 而 不 必 改 动 路 径 中 的 光 放 大 器 ， 因 为 它们 可 以 像 放大 50 个 波长 
那样 轻而易举 地 放大 100 个 波长 。 | | 

AY DWDM 和 光 放 大 器 ， 就 可 以 建造 容量 巨大 的 光 网 络 。 但 至 少 还 需要 一 种 设备 才 
能 使 这 些 网 络 工作 ， 那 就 是 光 交 换 机 (optical switch) 。 现 今 大 多 数 所 谓 的 光 交 换 机 都 使 
用 电子 方式 实现 交换 功能 。 从 体系 结构 的 角度 来 看 ， 它 们 与 电路 交换 机 的 共同 之 处 要 多 于 
本 章 描述 的 分 组 交换 机 。 一 全 典型 的 光 交 换 机 有 大 量 能 够 理解 SONET 帧 格式 的 接口 ， 并 
且 能 够 把 来 自 一 个 输入 端口 的 SONET 信道 交叉 连接 到 一 个 输出 接口 。 这 样 ， 即 便 不 存在 
从 A 直接 到 BB 的 光纤 路 径 ， 也 能 够 使 用 光 交 换 机 通过 点 C 提供 从 点 A 到 点 B 的 SONET 
信道 一 一 只 需要 一 条 从 A 到 C 的 路 径 、 一 台 位 于 C 点 的 交换 机 以 及 一 条 从 C 到 BB 的 路 径 。 
在 这 方面 ， 光 交换 机 和 图 3-3 中 的 交换 机 存在 某 种 关系 ， 因 为 它 制造 了 两 点 间 有 连接 的 假 
象 ， 其 实 两 点 间 没 有 直接 的 物理 连接 。 然 而 ， 光 交换 机 不 提供 虚 电 路 ， 它 们 提供 “真实 
的 ”电路 (例如 一 条 SONET 信道 ) 。 甚 至 有 一 些 新 型 光 交 换 机 使 用 微型 镜 把 一 台 交 换 机 
端口 的 所 有 光束 偏转 到 另 一 端口 上 ， 这 样 就 可 以 产生 一 条 从 点 A 到 点 B 的 不 受 干扰 的 光 
信道 。 这 种 设备 所 使 用 的 技术 称 为 微机 电 系 统 (microelec tromechanical system), 

本 书 不 会 广泛 探讨 光 网 络 ， 一 部 分 是 出 于 篇 幅 的 考虑 。 从 诸多 现实 目的 出 发 ， 可 以 把 
光 网 络 看 成 是 一 个 能 够 让 电话 公司 在 你 需要 的 时 间 和 地 点 提供 SONET 链 路 或 其 他 电路 类 
型 的 基础 设施 。 然 而 ， 有 必要 指出 ， 下 文 讨论 到 的 很 多 技术 ,例如 路 由 协议 和 多 协议 标记 
交换 ， 在 光 网 络 领域 都 有 应 用 。 





异步 传输 模式 : 

异步 传输 模式 (Asgn chronous Transfer Mode, ATM) 几乎 是 最 广为人知 的 基于 虚 
电路 的 网 络 技术 ， 尽 管 由 于 一 些 原 因 现 在 已 经 过 了 部 署 该 网 络 的 高 峰 期 。 由 于 种 种 原因 ， 
ATM Æ 20 世纪 80 年 代 和 90 年 代 初 已 成 为 一 种 相当 重要 的 技术 ， 其 中 一 个 原因 是 它 被 电 
话 行业 所 追捧 ， 而 该 行业 历史 上 在 数据 通信 中 并 没有 那么 活跃 〈 相 对 于 人 们 构建 网 络 时 选 
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用 的 链 路 提供 方式 而 言 ) 。 而 当 许 多 计算 机 网 络 用 户 认 为 像 以 太 网 和 令 牌 网 这 种 共有 至 介质 
网 的 速度 太 慢 时 ，ATM 技术 适时 地 作为 一 种 高 速 交 换 技 术 出 现 了 。 在 茶 些 方面 ，ATM 
是 一 种 与 以 太 网 交换 技术 竞争 的 技术 ， 也 被 看 作 是 一 种 与 IP (MDM) 竞争 的 技术 。 

至 少 有 一 些 因素 使 得 ATM 技术 看 起 来 是 值得 尝试 的 ， 如 ATM 分 组 格式 〈 主 结构 如 
图 3-6 所 示 ) ， 通 常 称 为 ATM 信 元 (ATM cell) 。 该 结构 中 ， 我 们 可 以 忽略 没有 作用 的 通 
用 流 控制 (GFC) 位 ， 重 点 从 标志 着 VPI ( 虚 路 径 识 别 符 ，8 位 ) 和 VCI 〈 虚 电路 识别 符 ， 
16 位 ) 的 .24 位 开始 看 。 如 果 把 这 些 看 作 一 个 24 位 的 字段 ， 那 么 可 以 认为 它们 与 一 个 虚 电 
路 标示 符 相 关联 。 把 该 字段 分 为 两 部 分 的 原因 是 为 了 允许 层级 的 出 现 : 所 有 电路 都 具有 相 
同 的 VPI， 在 某 些 情况 下 被 视 为 一 个 组 〈 一 个 虚 路 径 ) ， 且 只 根据 VPI 就 能 一 起 进行 交换 ， 
从 而 简化 了 交换 过 程 。 这 个 过 程 可 以 忽略 所 有 VCI 位 且 减 小 了 VC 表 的 大 小 。 


A 8 16 3 1 8 384(48 字 节 ) 





图 3-6 UNI 的 ATM 信 元 格式 


跳 到 最 后 一 个 首部 字 节 ， 我 们 发 现 一 个 8 位 的 循环 宛 余 校 检 位 〈CRC) ， 称 为 首部 差错 
校 验 (HEC). PRAT 2.4.3 节 中 给 出 CRC-8 多 项 式 ， 并 提供 了 在 信 元 首部 部 分 进行 错误 
检测 和 单个 位 纠 错 的 能 力 。 保 护 信 元 首部 非常 重要 ， 因 为 VCI 中 的 错误 将 导致 信 元 被 误 投 。 

对 于 ATM 信 元 ， 也 许 其 最 重要 的 被 称 为 信 元 而 不 是 分 组 的 原因 是 它 仅 有 一 个 大 小 : 
53 字 节 。 这 样 做 的 原因 是 什么 呢 ? 一 个 很 重要 的 原因 是 促进 实施 硬件 数据 交换 。 在 20 世 
纪 80 年 代 中 后 期 ATM 刚 创建 时 ，10Mbps 的 以 太 网 在 速度 方面 采用 了 最 前 沿 的 技术 。 为 
了 更 快速 ， 大 多 数 人 都 从 硬件 上 考虑 ， 而 且 ， 在 电话 行业 ， 人 们 一 想到 交换 机 就 认为 非常 
大 ， 因 为 电话 交换 机 通常 为 成 于 上 万 的 用 户 服务 。 当 你 想 要 建立 一 个 快速 的 大 规模 交换 机 
时 ， 固 定 长 度 分 组 将 会 非常 有 用 。 这 有 两 个 主要 原因 ， 

D 构建 硬件 来 做 简单 的 工作 比较 容易 。 已 知 每 个 分 组 的 长 度 后 ， 处 理 分 组 的 工作 就 
更 为 简单 。 | | | \ 

2) 如 果 所 有 分 组 都 是 相同 的 长 度 ， 那 么 ， 可 以 让 多 个 交换 单元 以 并 行 方 式 做 同样 的 
[， 它 们 中 每 一 个 交换 单元 都 花费 相同 的 时 间 去 完成 自己 的 工作 ，。 

对 第 二 个 原因 ， 实 施 并 行 方式 极 大 地 提高 了 交换 机 设计 的 可 扩展 性 。 如 果 说 快速 并 行 
硬件 交换 机 只 能 使 用 固定 长 度 分 组 才能 实现 也 许 有 些 过 分 。 但 是 ， 信 元 使 得 构造 这 样 一 种 
硬件 的 工作 变 得 简单 ， 这 是 千 真 万 确 的 ， 并 且 在 定义 ATM 标准 时 ， 我 们 已 经 有 了 大 量 如 
何在 硬件 上 构造 信 元 交换 机 的 知识 。 事实 证明 ， 同 样 的 原则 在 今天 仍 被 许多 交换 机 和 路 由 
器 所 采用 ， 即 使 它们 在 处 理 可 变 长 度 的 数据 分 组 ， 也 可 以 将 那些 分 组 切割 为 某 种 用 于 交换 
的 信 元 。 我 们 会 在 3. 4 节 中 讨论 。 

决定 使 用 小 的 国定 长 度 分 组 之 后 ， 下 一 个 问题 就 是 应 将 最 合适 的 分 组 长 度 设 为 多 少 ? 
如 果 长 度 太 短 ， 则 在 一 个 信 元 中 携带 的 首部 信息 占 的 比例 较 大 ， 所 以 传输 真正 数据 的 链 路 
带宽 的 比例 下 降 。 甚 至 更 严重 的 是 ， 如 果 建 造 了 一 种 设备 ， 每 秒 可 以 处 理 某 个 最 大 数目 的 
言 元 ， 那 么 当 信 元 变 短 时 ， 总 的 数据 速率 将 随 信 元 长 度 的 减少 而 成 比例 降低 。 以 网 络 适 配 
器 为 例 ， 它 在 把 分 组 传送 到 主机 之 前 把 小 的 信 元 装配 成 更 大 的 单元 ， 这 样 设备 的 性 能 就 直 
接 取 决 于 信 元 的 大 小 。 另 一 方面 ， 如 果 信 元 的 尺寸 太 大 ， 为 得 到 一 个 完整 的 信 元 ， 就 需要 
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把 传输 的 数据 填充 成 完整 的 信 元 ， 这 就 引起 带宽 浪费 的 问题 。 如 果 信 元 的 有 效 载 荷 是 48 
字 市 而 你 只 想 发 送 1 字 节 ， 那 么 还 需 填 充 47 字 节 。 如 果 这 种 情况 多 次 发 生 ， 那 么 链 路 的 
利用 率 将 非常 低 。 相 对 较 高 的 首部 载荷 比 以 及 被 部 分 填充 的 信 元 的 发 送 频率 的 确 在 ATM 
网 络 中 会 导致 一 些 明显 的 低 效率 。 这 种 现象 被 反对 者 称 为 信 元 税 (cell tax). 

事实 证 明 ， 选 取 48 字 节 的 ATM 信 元 载荷 是 一 种 妥协 。 使 用 更 大 还 是 更 小 的 信 元 引 
起 了 激烈 的 争论 ， 但 几乎 没有 人 赞同 48 字 节 ， 因 为 采用 2 的 指数 将 更 有 利于 计算 机 工作 。 
3.1.3 源 路 由 

第 三 种 交换 方法 称 作 源 路 由 ， 这 种 方法 既 不 使 用 虚 电 路 也 不 使 用 传统 数据 报 。 这 个 名 
称 来 目 于 由 源 主机 提供 通过 网 络 交换 分 组 时 所 需 的 全 部 网 络 拓扑 结构 信息 。 

实现 源 路 由 有 多 种 不 同 的 方法 。 一 种 方法 是 给 每 台 交 换 机 的 每 个 输出 端口 编号 ， 并 把 
编号 放 入 分 组 的 首部 。 那 么 交换 机 的 功能 就 很 简单 ， 对 于 到 达 一 个 输入 端口 的 每 个 分 组 ， 
交换 机 读 出 它 的 首部 中 的 端口 号 ， 并 把 分 组 发 送 到 那个 输出 端口 上 。 然 而， 由 于 发 送 主 机 
和 接收 主机 间 的 路 径 上 一 般 设 有 多 台 交 换 机 ， 分 组 的 首部 需要 包含 足够 的 信息 ， 使 得 路 径 
上 的 每 个 交换 机 都 能 够 确定 该 把 分 组 放置 到 哪个 输出 端口 。 一 种 方法 就 是 在 分 组 首部 放置 
交换 机 端口 的 一 个 有 序列 表 。 该 列表 以 某 种 方式 旋转 ， 使 路 径 上 的 下 一 人 台 交 换 机 总 是 处 在 
列表 的 首位 。 图 3-7 说 明了 这 个 方法 。 | : 
| 交换 机 1 


过 
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图 3-7 ”交换 网 络 中 的 源 路 由 〈 交 换 机 读 取 最 右边 的 数字 ) 





ATM | 

在 20 世纪 80 年 代 末 和 90 年 代 初 的 一 段 时 间 里 ， 很 多 人 认为 ATM 是 准备 接管 这 个 世 
界 的 。 主 流 电信 公司 都 支持 它 ， 并 承诺 将 语音 、 视 频 和 数据 高 速 网 络 平滑 整合 到 一 个 通用 
网 络 势 在 必 行 。 他 们 采用 ATM 改变 所 有 使 用 可 变 长 度 分 组 的 网 络 技术 ， 如 把 以 太 网 和 IP 
作为 “遗留 ” 技术。 然而 今天 以 太 网 和 IP 仍 处 于 主宰 地 位 ， 而 ATM 则 已 过 时 。 作 为 一 
种 访问 IP 网 络 的 方式 ， 你 仍然 可 以 找到 很 多 ATM 部 署 方案 。 值 得 注意 的 是 ， 很 多 数字 
用 户 线 (DSL) 接 入 网 络 是 采用 ATM 构建 的 ， 所 以 一 定数 量 的 宽带 网 络 接 入 是 基于 
ATM 链 路 的 。 虽 然 这 些 隐 藏 在 DSL 调制 解 调 器 之 后 ， 将 以 太 网 帧 封装 到 接 入 网 络 的 信 元 
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当中 。 
关于 为 什么 ATM 没有 在 世界 上 普及 这 个 问题 仍 在 讨论 。 回 顾 这 个 问题 ， 一 种 基本 的 
重要 因素 是 在 ATM 出 现 的 时 候 ，IP 已 经 以 自己 的 方式 完全 确立 了 牢固 的 地 位 。 在 20 世 
纪 80 年 代 ， 还 没有 很 多 人 接触 过 因特网 ， 但 IP 已 经 实现 全 球 互 联 并 且 每 年 连接 的 主机 数 
量 以 两 倍 的 速度 增长 。 因 为 IJP 的 核心 是 平滑 连接 各 种 网 络 ， 所 以 当 ATM 出 现时 ， 并 没 
有 像 它 的 支持 者 想象 的 那样 取代 IP， 而 是 很 快 被 采纳 为 运行 JP 的 另 一 种 网 络 类 型 。 因 此 ， 
ATM 更 直接 地 面 对 着 以 太 网 的 竞争 而 不 是 IP 的 竞争 。 人 和 便宜 的 以 太 网 交换 技术 和 无 需 昂贵 
的 光 交 换 机 的 百 兆 以 太 网 捍卫 了 其 作为 主导 局 域 网 技术 的 地 位 。 


在 这 个 例子 中 ， 分 组 需要 经 过 三 台 交换 机 才能 从 主机 A 到 达 主 机 B。 在 交换 机 1 中 ， 
分 组 从 端口 1 输出 ， 在 下 一 台 交 换 机 中 从 端口 0 输出 ， 在 第 三 台 交换 机 中 从 端口 3 输出 。 
这 样 ， 当 分 组 离开 主机 A 时 ， 首 部 带 有 最 初 的 端口 表 (3，0，1) 。 这 里 ， 我 们 假设 每 一 台 
交换 机 读 取 列 表 中 最 右 端的 元 素 。 为 了 确保 下 一 台 交 换 机 能 得 到 正确 的 信息 ， 每 台 交 换 机 
在 读 出 自己 的 记录 之 后 对 列表 进行 旋转 。 这 样 ， 当 有 分 组 离开 交换 机 1 到 达 交 换 机 2 时 ， 
首部 列表 是 (1，3，0) ， 第 二 台 交 换 机 完成 另外 一 次 旋转 ， 送 出 分 组 ， 此 时 其 首部 列表 为 
(0，1，3) 。 尽 管 在 图 中 没有 显示 出 来 ， 但 是 交换 机 3 还 要 进行 一 次 旋转 ， 把 分 组 的 首部 
列表 恢复 到 最 初 主机 A 发 送 时 的 状态 。 

这 种 方法 还 需要 注意 几 个 问题 。 第 一 ， 它 假设 主机 A 充分 了 解 网 络 的 拓扑 结构 ， 能 形 
成 分 组 的 首部 信息 ， 其 中 包含 路 径 中 每 一 台 交 换 机 的 所 有 正确 输出 方向 。 这 同 数据 报 网 络 
中 构造 转发 表 的 问题 或 在 虚 电 路 网 络 中 算出 向 哪里 发 出 建立 分 组 的 问题 有 某 些 类 似 之 处 。 
第 二 ， 注 意 我 们 不 能 预测 一 个 分 组 的 首部 需要 多 大 ， 因 为 它 必须 能 够 为 路 径 上 的 每 台 交 换 
机 保留 一 个 字 的 信息 。 这 就 说 明 分 组 的 首部 长 度 可 能 是 可 变 的 ， 而 且 没 有 上 界 ， 除 非 我 们 
能 确切 地 预测 分 组 需要 通过 的 交换 机 的 最 大 数目 。 第 三 ， 这 个 方法 还 有 一 些 变种 。 例 如 ， 
每 台 交 换 机 只 是 删 掉 其 首部 列表 的 第 一 个 元 素 ， 而 不 是 旋转 首部 信息 。 然 而 旋转 要 比 删除 
首部 信息 有 利 ， 因 为 主机 也 可 以 得 到 分 组 首部 的 一 份 完整 副本 ， 这 有 助 于 主机 B 了 解 如 何 
把 数据 回 送 到 主机 A。 另 外 一 个 变种 是 ， 让 分 组 的 首部 带 有 指向 当前 “下 一 个 端口 ”的 指 
针 ， 这 样 每 台 交 换 机 只 需要 更 新 指针 而 不 用 旋转 分 组 的 首部 ， 便 于 高 效 的 实现 。 我 们 在 图 
3-8 中 说 明 这 三 种 方法 。 在 每 种 情况 下 ， 这 台 交 换 机 需要 读 的 记录 值 是 A， 下 一 台 交 换 机 
需要 读 的 记录 值 是 B。 
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ARE DMR 
3-8 源 路 由 中 处 理 首部 的 三 种 方法 〈 记 录 值 从 右 向 左 读 ) 


源 路 由 可 以 应 用 在 数据 报 网 络 和 虚 电 路 网 络 中 。 例 如 ，IP 协议 是 一 个 数据 报 协 议 ， 包 合 
一 个 源 路 由 选项 ， 允 许 选 定 的 分 组 使 用 源 路 由 选择 ， 而 多 数 情 况 采 用 传统 的 数据 报 交换 。 源 
路 由 选择 也 应 用 在 一 些 虚 电路 网 络 中 ， 用 于 获得 从 源 到 目的 路 径 上 的 初始 建立 请 求 。 

源 路 由 有 时 用 “严格 ”和 “宽松 ”来 分 类 。 在 “严格 ” 源 路 由 中 ， 每 个 沿路 径 的 节点 





都 必须 声明 ， 而 “宽松 ” 源 路 由 可 以 仅 声 明 一 组 要 经 过 的 节点 ， 而 并 不 确切 地 说 明 是 否 沿 
一 个 证 扩 到 下 一 个 节操 。 宽 松 源 路 由 可 以 理解 为 一 组 路 点 ， 而 不 是 一 个 完整 声明 的 路 径 。 
宽松 选项 有 助 于 减 小 源 用 于 创建 源 路 由 的 信息 量 。 在 一 些 大 型 网 络 中 ， 主 机 很 难得 到 建立 
正确 严格 源 路 由 所 需要 的 到 目的 地 的 完整 路 径 信息 。 但 两 种 类 型 的 源 路 由 都 可 以 在 一 些 特 
定 环境 下 得 到 应 用 ，4. 3 节 中 描述 了 一 个 应 用 。 


3. 1.4 网 桥 和 局 域 网 交换 机 


在 讨论 过 交换 的 某 些 基本 思想 后 ， 现 在 更 集中 地 讨论 一 些 特 殊 的 交换 技术 。 我 们 先 考 
虑 用 于 在 共享 介质 局 域 网 〈 例 如 以 太 网 ) 中 转发 分 组 的 一 类 交换 机 。 这 样 的 交换 机 有 时 通 
称 为 局 域 网 交换 机 ， 历 史上 曾 称 为 网 桥 。 

假设 现 有 两 个 想 要 互联 的 以 太 网 ， 那 么 必须 做 的 第 一 件 事 是 在 它们 之 间 放 一 个 中 继 
器 ， 像 第 2 章 描述 的 那样 。 然 而 ， 当 超出 以 太 网 的 物理 限制 时 ， 这 并 不 是 一 个 有 效 的 解决 
办 法 。( 回 忆 一 下 ， 任 一 对 主机 之 间 最 多 只 能 有 两 个 中 继 器 ， 并 且 总 长 度 不 能 超过 2 500m.) 
另 一 个 办 法 是 在 两 个 以 太 网 之 间 放 一 个 节点 ， 由 节点 来 转发 从 一 个 以 太 网 到 另 一 个 以 太 网 的 
帧 。 此 节点 处 于 混杂 模式 ， 接 收 从 任意 以 太 网 传 来 的 所 有 帧 ,并 将 它们 转发 到 另 一 个 以 
太 网 。 | 

我 们 所 描述 的 节点 通常 称 为 网 桥 (bridge)， 由 一 个 或 多 个 网 桥 连接 的 LAN 集合 通常 
称 为 扩展 局 域 网 (extended LAN) 。 最 简单 的 一 种 情况 是 ， 网 桥 仅 在 它们 的 输入 端口 上 接 
收 局 域 网 的 帧 并 在 所 有 其 他 输出 端口 上 将 这 些 帧 转发 出 去 。 这 种 简单 的 策略 用 于 早期 的 网 
桥 ， 但 它 一 直 在 改进 ， 使 得 网 桥 成 为 LAN 集合 互联 的 有 效 机 制 。 本 节 其 余部 分 将 加 入 更 
有 趣 的 细节 。 

注意 ; 网 桥 符 合 前 一 节 的 交换 机 定义 ,多 输入 多 输出 设备 ， 能 够 从 一 个 输入 传送 分 组 
给 一 个 或 多 个 输出 。 回 顾 一 下 ， 这 提供 了 一 个 增加 网 络 总 带宽 的 方法 。 例 如 ， 当 单个 以 太 
网 段 能 够 传输 的 总 通信 量 是 100Mbps 时 ， 一 个 以 太 网 网 桥 能 够 传输 100n Mbps, XE n Æ 
网 桥 上 的 端口 〈 输 入 和 输出 ) 数 。 | 

1. 学 习 型 网 桥 

注意 ， 网 桥 不 需要 转发 所 有 收 到 的 帧 ， 所 
以 我 们 可 以 对 网 桥 进行 第 一 项 优化 。 考 虑 图 3- 9 
中 的 网 桥 。 从 主机 A 到 主机 B 的 帧 无 论 何 时 到 
达 端 口 1 都 无 需 经 网 桥 转发 给 端口 2。 那 么 ， 问 
题 是 网 桥 如 何 得 知 各 个 主机 在 哪 一 端口 上 呢 ? 

一 种 选择 是 人 为 地 在 网 桥 内 放置 一 个 类 似 
表 3-4 的 表 。 这 样 ， 无 论 何 时 网 桥 在 端口 1 上 
接收 到 给 主机 A 的 帧 ， 都 不 必 转 发 给 端口 2， 图 3-9 学 习 型 网 桥 图 解 
因为 主机 A 可 直接 接收 连接 到 端口 1 上 的 LAN 的 帧 。 任 何 时 候 在 端口 2 收 到 发 往 主 机 A 
的 帧 ， 网 桥 都 将 转发 给 端口 1。 

实际 上 没有 人 会 采用 这 种 方式 来 配置 网 桥 ， 人 工 维护 转发 表 是 一 个 相当 大 的 负担 ， 特 
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别 是 考虑 到 网 桥 能 使 用 简单 的 技巧 得 到 这 些 信息 时 。 所 用 方法 的 思想 是 每 个 网 桥 检 查 它 所 

接收 的 帧 的 源 地 址 。 这 样 ， 当 主机 A 向 网 桥 任 何 一 边 的 主机 发 送 帧 时 ， 网 桥接 收 到 这 

bt, FFA ise PM EDL A 来 的 帧 由 端口 1 接收 这 一 事 | 
实 。 用 这 种 方法 网 桥 可 以 建立 起 如 表 3-4 所 示 的 表 。 





£34 通过 网 酉 维护 的 转发 表 


注意 ， 使 用 这 种 表 的 网 桥 能 使 用 3. 1. 1 节 描述 的 转 一 二 

发 数据 报 (或 无 连接 ) 模式 。 每 个 分 组 带 有 一 个 全 局 地 : 
hc, PAF HL EE EE TEETE TEIN 发 册 6 I 
分 组 。 X 2 
Y 2 

网 桥 首次 启动 时 表 是 空 的 ， 表 中 的 记录 是 随时 间 逐 


渐 增 加 。 而 且 ， 每 条 记录 都 有 相应 超时 时 间 ， 超 过 一 定 | 
时 间 ， 网 桥 便 将 其 丢弃 。 这 是 为 了 适应 主机 从 一 个 网 络 移动 到 另 一 个 网 络 时 的 情况 ， 这 
时 其 地 址 也 随 之 发 生 移动 。 因 此 ， 这 张 表 不 需要 包含 全 部 主机 地 址 。 如 果 网 桥接 收 到 一 个 
帧 ， 而 它 要 送 达 的 主机 地 址 不 在 当前 表 中 ， 那 么 网 桥 会 将 这 一 帧 从 所 有 其 他 端口 转发 出 
E, HEZ, WER ! 是 可 以 过 滤 掉 一 些 帧 的 简单 优化 ， 而 没有 正确 性 的 要 求 。 

2. 实现 

实现 学 习 型 网 桥 算法 的 代码 很 简单 ， 这 里 我 们 简单 描述 一 下 。BridgeEntry 结构 定义 
网 桥 转发 表 中 的 一 个 记录 ， 它 们 存储 在 一 个 Map 结构 〈 它 支持 mapCreate, mapBind 和 
es 以 便当 表 中 已 存在 的 源 主机 发 来 的 分 组 到 达 时 ， 能 够 快速 地 查找 
记录 。 量 MAX TTL 表示 一 个 记录 被 丢弃 前 在 表 中 保存 的 时 间 。 

#define BRIDGE _TAB_SIZE 1024 /x max. size of bridging 

table x/ 


#define MAX_TTL | 120 /x time (in seconds) before 
aa an entry is flushed */ 


typedef struct { 


MacAddr destination; /x MAC address of a node x/ 
int ifnumber; /x interface to reach it */ 
u_short TESA: /x time to live x/ 

Binding binding; E /* binding in the Map */ 


} BridgeEntry; 


int numEntries = 0; 
Map bridgeMap = mapCreate(BRIDGE_TAB_SIZE, 
sizeof(BridgeEntry)); 


当 一 个 新 的 分 组 到 达 时 更 新 转发 表 的 例 程 由 updateTable 给 出 ， 传 递 的 参数 是 包含 在 
分 组 中 的 源 MAC 地 址 和 接收 分 组 的 接口 号 。 这 里 没有 给 出 会 被 定时 唤醒 的 另 一 个 例 程 ， 
它 扫 描 转发 表 中 的 记录 ， 并 减少 每 个 记录 的 TTL (生存 期 ) ZEKE, £R TTL 值 为 0 
的 记录 。 注意 ， 每 次 分 组 到 达 时 更 新 一 个 已 存在 的 表 记 录 ，TTL 被 重 置 为 MAX _TTL， 

能 连 到 目标 主机 的 接口 被 更 新 ， 以 反映 最 新 接收 分 组 的 情况 。 


void | 
updateTable (MacAddr src, int inif) 
{ 

BridgeEntry xb; 
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if (mapResolve(bridgeMap, &src, (void **)&b) == FALSE ) 
D, 
/x this address is not in the table, so try to a it a 
if (numEntries < BRIDGE_TAB_SIZE) - 
| | 
b = NEW(BridgeEntry) ; 
b->binding = mapBind( bridgeMap, &src， b); 
/x use source address of packet as dest. address in table x/ 
b->destination = src; 
numEntriest+; 
7 
else 
{ 
[x can't Tit. this “address in the table now, so give up */ 
return; 
P 
} 


/x-reset TTL and.use most. recent input interface wy 

b->TTL = MAX_TTL; 

b->ifnumber = init: 
ae | 
注意 ， 在 网 桥 转发 表 容 量 已 满 的 情况 下 这 个 实现 采用 了 一 种 简单 的 策略 ， 即 添加 新 地 
址 失败 。 回 顾 一 下 ， 正 确 地 转发 不 要 求 网 桥 表 的 完整 性 ， 它 只 是 用 来 优化 性 能 。 如 果 表 中 
的 某 条 记录 当前 不 被 使 用 ， 最 终 会 因 超 时 而 被 删除 ， 从 而 为 新 记录 腾 出 空 x 间 。 a 不 方法 
是 在 发 现 表 满 时 ， 调 用 某 种 高 速 缓存 替换 算法 。 例如 ， 我 们 可 以 查找 并 删除 具有 最 小 
TTL 值 的 记录 ， 以 便 安 置 新 记录 。 

3. 生成 树 算法 | a 

如 果 扩 展 局 域 网 内 没有 产生 环 ， 那 么 前 面 所 讲 的 策略 是 很 好 的 。 环 的 产生 可 能 造成 帧 
永远 在 扩展 局 域 网 中 循环 这 种 可 怕 的 故障 。 从 图 3-10 描述 的 例子 中 容易 看 出 这 种 情况 ， 
例如 ， 网 桥 B1、B4 和 B6 形成 一 个 环 。 假设 一 个 分 组 从 以 太 网 J 进入 网 桥 B4 且 其 目的 地 
并 没有 存在 于 任何 一 个 网 桥 地 址 转发 表 0 
Al: B4 发 送 一 个 分 组 拷贝 到 吾 和 I。 这 
时 网 桥 B6 转发 该 分 组 到 能 被 Bl 看 到 的 
以 太 网 G， 然 后 转发 该 分 组 回 到 以 太 网 
H。B4 的 地 址 表 中 仍然 没有 目标 地 址 ， 
所 以 转发 这 个 包 到 以 太 网 1 和 J]。 没 有 办 
法 能 阻止 双 回 连接 的 Bl, B4 和 B6 之 间 
无 休止 的 循环 。 

为 什么 扩展 局 域 网 会 有 内 部 循环 ? 
一 种 可 能 是 网 络 由 多 位 管理 员 管 理 ， 比 
方 说 ， 因 为 网 络 跨越 一 个 机 构 的 多 个 部 
门 。 在 这 种 情况 下 ， 可 能 没有 人 知道 网 
络 的 整体 配置 ， 这 就 意味 着 可 能 添加 了 
一 个 引起 环 的 网 桥 而 无 人 知道 。 另 一 种 图 3-10 带 环 的 扩展 局 域 网 
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很 可 能 的 情况 是 有 目的 地 在 网 络 中 建立 环 ， 为 网 桥 发 生 故 障 时 提供 宛 余 。 毕 竟 ， 仅 需要 一 
个 连接 错误 就 能 将 一 个 没有 循环 的 网 络 在 分 裂 成 两 个 独立 的 分 区 。 | 

无 论 环 是 怎样 产生 的 ， 网 桥 必须 能 正确 处 理 环 。 让 网 桥 运行 分 布 式 生成 树 (spanning 
tree) 算法 可 以 解决 这 个 问题 。 如 果 将 扩展 局 域 A 
网 看 作 有 环 图 ， 那 么 生成 树 是 覆盖 此 图 所 有 项 No 






点 的 无 环 子 图 。 就 是 说 ， 生 成 树 保留 原 图 的 所 
有 顶点， 却 丢弃 一 些 边 。 例如， 图 3- 11a 是 一 “全 
个 有 环 图 ， 图 3-11b 是 可 能 的 多 个 生成 机 中 的 “N 


一 个 。 





生成 树 的 想法 很 简单 ， 在 扩展 网 络 中 ， 网 ae b ) eH EA 


络 拓扑 结构 子 集 没 有 环 路 并 能 到 达 所 有 的 局 域 
网 。 难 点 是 所 有 的 网 桥 如 何 协调 决策 并 形成 生成 树 的 单一 视图 。 因 为 通常 一 个 典型 拓扑 是 能 
够 被 多 个 生成 树 拓扑 所 覆盖 的 。 这 个 问题 的 答案 就 在 我 们 现在 正在 讨论 的 生成 树 协议 中 。 

生成 树 算法 是 由 数字 设备 公司 CDEC) 的 Radia Perlman 开发 的 ， 用 于 协调 从 一 组 网 
桥 中 为 某 个 特定 的 扩展 局 域 网 产生 生成 树 的 协议 。 CEEE 802. 1 关于 LAN 网 桥 的 规范 就 
是 基于 此 算法 的 .。) 实际 上 ， 这 意味 着 每 个 网 桥 将 决定 它 使 用 和 不 使 用 的 转发 帧 的 端口 。 
从 某 种 意义 上 来 说 ， 通 过 从 扩展 局 域 网 的 拓扑 结构 中 去 掉 一 些 端口 可 使 其 退化 成 一 棵 无 环 
树 。 当 你 看 到 我 们 有 意 在 网 络 中 加 入 环 以 提供 宛 余 时 可 能 会 感到 奇怪 ， 因 为 有 的 网 桥 可 能 
不 参与 转发 帧 。 然 而 ， 算 法 是 动态 的 ， 这 意味 着 那些 网 桥 随时 准备 在 某 个 网 桥 出 故障 时 重 
新 配置 以 形成 新 的 生成 树 。 | 

图 3-12 给 出 对 应 于 图 3-10 中 扩展 局 域 网 的 生成 树 。 在 这 个 例子 中 ，B1l 是 根 网 桥 ， 因 
为 它 的 标识 符 最 小 。 注 意 B3 和 BS 都 连接 到 LANA E, 但 B5 是 指派 网 桥 ， 因 为 它 距离 
根 更 近 。 类 似 地 ，B5 和 B7 都 连接 到 LAN BE, BAM Bl 到 两 个 网 桥 等 距离 ， 但 是 在 这 
种 情况 下 ，B5 由 于 有 较 小 的 标识 符 而 成 为 指派 网 桥 。 

观察 图 3-10 给 出 的 扩展 局 域 网 ， 完 全 可 以 根据 上 面 给 出 的 规则 计算 图 3-12 中 的 生成 
树 ， 然 而 扩展 局 域 网 中 的 网 桥 无 法 看 到 
整个 网 络 的 拓扑 结构 ， 更 不 用 说 窥视 其 
他 网 桥 内 部 的 标识 符 了 。 因 此 ， 网 桥 必 
须 彼 此 间 交 换 配 置 消息 ， 然 后 根据 这 些 
消息 确定 它们 是 根 网 桥 或 指派 网 桥 。 

配置 消息 包含 以 下 三 条 信息 : 

1) 发 送 消息 的 网 桥 的 标识 符 。 

2) 发 送 网 桥 认定 的 根 网 桥 的 标识 符 。 

3) 从 发 送 网 桥 到 根 网 桥 的 按 跳 数 度 
量 的 距离 。 
”” 每 个 网 桥 记 下 在 它 的 每 个 端口 上 看 
到 的 当前 最 优 (best) (“最 优 ”将 在 下 面 
定义 ) 配置 消息 ,包括 从 其 他 网 桥接 收 
的 和 它 自己 发 送 的 消息 。 

最 初 ， 每 个 网 桥 认 为 自己 是 根 ， 并 图 3-12 某 些 端口 不 被 选择 的 生成 树 





从 每 个 端口 发 出 配置 消息 ， 标 识 自己 是 根 并 给 出 到 根 的 距离 为 0。 网 桥 在 某 个 端口 接收 到 
配置 消息 后 ， 就 检查 这 个 新 消息 是 否 优 于 该 端口 记录 的 配置 消息 。 如 果 满 足以 下 条 件 ， 则 
认为 新 配置 消息 优 于 (better) 当前 记录 的 消息 。 

。 标识 一 个 具有 更 小 标识 符 的 根 。 

。 标 识 _ 个 带 有 相同 标识 符 但 具有 更 短 距离 的 根 ， 

。 根 标识 符 和 距离 都 相等 ， 但 发 送 这 条 消息 的 网 桥 具 有 更 小 的 标识 符 。 

如 果 新 消息 优 于 当前 记录 的 消息 ， 网 桥 则 丢弃 旧 消 息 并 保存 新 消息 。 然 而 ， 它 首先 将 
到 根 的 距离 字段 加 1， 因 为 这 个 网 桥 到 根 的 距离 比 发 送 消息 的 网 桥 到 根 的 距离 远 一 跳 。 

当 一 个 网 桥接 收 到 说 明 自 身 不 是 根 网 桥 的 配置 消息 时 〔( 即 收 到 来 自 一 个 有 更 小 标识 符 
的 网 桥 的 消息 )， 网 桥 终止 生成 自己 的 配置 消息 ， 而 是 先 对 来 自 其 他 网 桥 的 配置 消息 中 的 
距离 字段 加 1， 然后 转发 。 类 似 地 ， 当 一 个 网 桥接 收 到 说 明 自 身 不 是 某 端口 的 指派 网 桥 的 
配置 消息 时 〈 即 配置 消息 来 自 与 根 的 距离 更 近 或 等 于 自己 与 根 的 距离 但 具有 更 小 标识 符 的 
网 桥 )， 网 桥 停止 在 该 端口 发 送 配 置 消息 。 这 样 ， 当 系统 稳定 时 ， 只 有 根 网 桥 仍 然 产 生 配 
置 消息 ， 而 其 余 网 桥 仅 在 那些 是 指派 网 桥 的 端口 上 转发 这 些 消息 。 从 这 点 上 说 ， 一 个 生成 
树 建立 后 ， 所 有 网 桥 需 要 为 生成 树 协调 其 使 用 的 端口 ， 只 有 这 些 端 口才 能 在 扩展 网 络 里 转 
发 数据 分 组 。 

下 面 来 看 一 个 网 桥 配置 的 实例 。 假设 某 网 络 所 在 大 楼 的 电源 刚刚 恢复 ， 所 有 网 桥 大 约 
在 同一 时 间 启 动 ， 考 虑 在 图 3- 12 中 会 发 生 什 么 。 所 有 网 桥 将 开始 发 出 自己 是 根 的 消息 。 
我 们 将 一 个 来 自 节 点 X, SRTA Y 的 距离 是 da 的 配置 消息 表示 为 (Y，4，XX)。 以 市 点 
B3 的 活动 为 例 ， 一 系列 事件 将 如 下 展开 : 

1) B3. 接 收 (B2, 0, B2). 

2) 因为 2 二 3， 所 以 B3 接受 B2 为 根 。 

3) B3 将 B2 通知 的 距离 (0) 加 1， 并 发 送 (B2, 1, B3) 给 B5。 

4) 同时 ， 因 为 B1 具有 更 小 的 标识 符 ， 所 以 ，B2 接受 Bl 为 根 ， 并 发 送 〈B1，1， 
Bl) -A Be, 

5) BS 接受 Bl 为 根 并 发 送 (B1，1，B5) 给 B3. 

6) B3 接受 Bl1 为 根 ， 且 由 于 看 到 B2 和 B5 都 比 它 距离 根 近 ， 因 此 B3 停止 在 这 两 个 端 
口上 转发 消息 。 

这 使 B3 带 有 两 个 未 被 选择 的 端口 ， 如 图 3-12 所 示 。 

即使 系统 稳定 后 ， 根 网 桥 还 会 继续 定期 发 送 配置 消息 ， 其 余 网 桥 继续 像 前 面 描述 的 那 
样 转发 这 些 消息 。 如 果 某 个 网 桥 出 现 故障 ， 下 游 的 网 桥 将 不 能 接收 到 这 些 配置 消息 ， 在 等 
待 一 个 指定 的 时 间 段 后 ， 它 们 会 重新 宣布 自己 是 根 ， 刚 才 描述 的 算法 会 再 选 一 个 新 的 根 和 
新 的 指派 网 桥 。 | 

需要 注意 的 一 件 重要 的 事情 是 ， 虽 然 无 论 何 时 某 个 网 桥 出 错 ， 算 法 都 能 重新 构造 生成 
_ 树 ， 但 是 不 能 为 了 绕 开 拥塞 网 桥 而 选择 另 一 条 路 径 来 转发 帧 。 

4. 广播 和 多 播 

之 前 讨论 的 重点 是 网 桥 如 何 从 一 个 LAN 转发 单 播 帧 到 另 一 个 LAN。 由 于 网 桥 的 目标 
是 透明 地 扩展 局 域 网 ， 并 且 由 于 大 多 数 LAN 都 支持 广播 和 多 播 ， 因 此 网 桥 也 必须 支持 这 
两 个 特性 。 广 播 比较 简单 ， 每 个 网 桥 将 带 有 目标 广播 地 址 的 帧 转发 到 除了 接收 它 的 端口 以 
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外 的 其 他 活动 (选择 ) 端口 。 

多 播 可 以 按 同 样 的 方法 实现 ， 每 台 主 机 自己 决定 是 否 接收 消息 。 实 际 应 用 中 就 是 这 人 样 
做 的 。 然 而 ， 在 扩展 局 域 网 中 ， 并 不 是 所 有 LAN 都 必须 有 一 台 作 为 某 多 播 组 成 员 的 主机 ， 
因此 情况 可 能 会 更 好 。 特 别 是 ， 可 以 扩展 生成 树 算法 来 删除 那些 不 需要 转发 多 播 帧 的 网 
络 。 考 查 帧 由 图 3-12 中 LAN A 的 一 台 主 机 发 往 一 个 组 M。 如 果 LAN J 中 的 主机 都 不 属 
于 组 M， 那 么 网 桥 B4 就 没有 必要 在 网 络 上 转发 帧 。 另 一 方面 ， 虽 然 LAN 互 中 的 任 一 主 
机 都 不 属于 组 M， 但 这 并 不 意味 着 网 桥 BL 不 转发 多 播 帧 到 LAN H。 这 取决 于 在 LAN I 
Al LAN J 中 是 否 有 组 M 的 成 员 。 pe 

网 桥 如 何 知道 是 否 需 要 通过 某 个 给 定 的 端口 转发 多 播 帧 ? 网 桥 是 通过 观察 从 该 端口 接 
收 到 的 源 Csource) 地 址 得 知 的 ， 这 与 网 桥 如 何 决 定 是 否 通 过 某 个 特定 端口 转发 一 个 单 播 
帧 的 方法 一 样 。 当 然 ， 组 通常 不 是 帧 的 源 ， 所 以 我 们 的 说 法 有 点 不 受 “特别 地 ， 组 M 的 
每 个 成 员 主 机 都 必须 定时 发 送 一 个 帧 ， 在 首部 的 涯 字段 中 携 市 组 M 的 地 址 ， 7 ot A H 
标 地 址 就 是 网 桥 的 多 播 地 址 。 : 

”注意 ， 以 上 描述 的 多 播 扩展 方法 虽然 已 经 提出 ， 但 还 :没有 广泛 采纳 。 而 且 ， 在 今天 的 
扩展 局 域 网 上 ， 多 播 与 广播 的 实现 方法 是 完全 一 样 的 。 

5. 网 桥 的 局 限 性 an 

以 上 描述 的 基于 网 桥 的 解决 方案 只 能 用 于 一 种 非常 有 限 的 环境 : 连接 少数 相似 的 
LAN。 当 我 们 考虑 到 可 扩展 性 和 异 构 性 问题 时 ， 这 种 局 限 性 就 变 得 很 明显 。 

在 可 扩展 性 问题 上 ， 用 网 桥 连 接 过 多 的 LAN 是 不 现实 的 ， 一 般 情 况 下 不 多 于 几 十 个 。 
一 个 原因 是 生成 树 算法 是 线性 扩展 的 ， 即 没有 为 扩展 局 域 网 提供 分 层 结 构 。 田 一 个 原因 是 
网 桥 转发 所 有 的 广播 帧 。 虽 然 在 一 种 受 限 制 的 环境 〈 如 一 个 部 门 ) 下， 对 所 有 主机 来 说 看 
到 相互 的 广播 消息 是 合理 的 ， 但 一 个 更 大 范围 《〈 如 一 个 大 公司 或 一 所 大 学 ) 内 的 所 有 主机 
不 可 能 都 愿意 受到 相互 广播 消息 的 打扰 。 换 言 之 ， 广播 的 规模 不 能 太 大 ， 因 此 扩展 局 域 网 
的 规模 不 能 太 大 。 \ \ 

增强 扩展 局 域 网 的 可 扩展 性 的 一 种 方法 是 虚拟 LAN (Virtual LAN, VLAN). 
VLAN 允许 将 一 个 扩展 局 域 网 划分 成 几 个 看 起 来 独立 的 LAN， 给 每 个 VLAN 赋 一 个 标 
识 符 〈 有 时 称 为 颜色 (color))， 而 且 只 有 当 两 个 网 段 有 相同 的 标识 符 时 ， 分 组 才能 从 一 
个 网 段 传送 到 为 一 个 网 段 。 这 样 可 以 限制 接收 任何 给 定 广播 分 组 的 扩展 局 域 网 上 的 网 段 
数目 。 
”我 们 通过 例子 来 看 VLAN 是 怎样 工作 的 。 图 3-13 给 出 在 4 个 不 同 LAN 网 段 上 的 4 
台 主 机 。 在 没有 VLAN 的 情况 下 ,来 自任 何 主机 的 广播 分 组 将 到 达 所 有 其 他 主机 。 现 在 
我 们 假设 把 连接 到 主机 W 和 主机 X 的 网 段 定 义 为 一 个 VLAN， 称 为 YLAN 100, 我们 还 
定义 连接 到 主机 Y MZ MIB VLAN 200。 这 lw i 
样 做 时 ， 我 们 需要 给 网 桥 Bl 和 B2 的 每 个 端口 配 
置 一 个 VLAN 标识 符 。 我 们 认为 在 两 个 VLAN 
中 都 包括 B1 到 B2 的 链 路 。 

当主 机 X 发 送 的 分 组 到 达 网 桥 B2 时 ， 网 桥 oe ee 
观察 到 它 来 自 配 置 为 VLAN 100 的 一 个 端口 它 Y o | z | 
在 以 太 网 的 首部 和 有 效 载 荷 之 间 搬 和 一 个 VLAN 图 3 13 两 个 虚拟 局 域 网 共享 一 个 主 二 
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首部 。 我 们 感 兴趣 的 VLAN 首部 部 分 是 VLAN 标识 符 ; 此 时 ， 这 个 标识 符 设 置 为 100。 网 
桥 现在 按 正 常规 则 转发 分 组 ， 附 加 的 限制 是 这 个 分 组 不 能 发 送 给 不 属于 VLAN 100 的 接口 。 
这 样 ， 分 组 决 不 会 发 送 到 VLAN 200 中 连接 主机 Z 的 接口 上 ， 即 使 是 一 个 广播 分 组 。 但 是 ， 
分 组 被 转发 到 网 桥 B1 ， 按 照 同 样 的 规则 ，Bl 可 以 转发 分 组 给 主机 W， 但 不 转发 给 主机 Y. 

VLAN 的 一 个 有 吸引 力 的 特性 是 它 能 更 改 网 络 的 逻辑 拓扑 结构 ， 而 不 用 移动 任何 线路 
或 更 改 任 何 地 址 。 例 如 ， 如 果 想 使 连接 到 主机 2Z 的 网 段 成 为 VLAN 100 的 一 部 分 ， 并 由 此 
使 X、W 和 ZZ 在 同一 个 虚拟 LAN 上 ， 和 那么 我 们 只 需 更 改 网 桥 B2 的 一 条 配置 信息 。 
”在 异 构 性 问题 上 ， 网 桥 完全 受 限于 它们 能 够 互联 的 网 络 的 类 型 。 特 别 是 ， 网 桥 使 用 网 
络 帧 的 首部 ， 因 此 只 能 支持 那些 地 址 格式 相同 的 网 络 。 这 样 ， 网 桥 可 以 用 来 连接 以 太 网 与 
以 太 网 、 令 牌 网 与 令 牌 网 以 及 802. 11 与 另 一 个 802. 11 网 络 。 因 为 都 支持 相同 的 48 比特 
地 址 格式 ， 所 以 一 个 以 太 网 与 802. 11 网 络 之 间 就 有 了 建立 桥接 的 可 能 。 然 而 ， 网 桥 不 易 
推广 到 其 他 类 型 的 网 络 ， 如 ATM, | 

尽管 有 这 些 局 限 性 ， 但 网 桥 仍 然 是 整个 网 络 中 很 重要 的 一 部 分 。 它 的 主要 优点 是 允许 
多 个 LAN 彼此 透明 地 连接 ， 就 是 说 ， 网 络 可 以 连接 起 来 而 并 不 需要 在 终端 主机 上 运行 任 
何 另外 的 协议 〈 或 者 即使 意识 到 需要 这 样 做 ) 。 当 主机 希望 在 一 个 多 点 播送 组 中 宣布 它们 
的 成 员 关 系 时 可 能 存在 一 个 潜在 的 异常 ， 如 3. 1.4 节 所 描述 的 情况 。 

然而 ， 这 种 透明 性 可 能 是 有 危险 的 。 如 果 一 台 主 机 (或 更 准确 地 说 主机 上 运行 的 应 用 
程序 和 传输 协议 ) 是 在 运行 于 单一 LAN 的 假设 下 编程 的 ， 那 么 在 源 主机 与 目的 主机 之 间 
插入 网 桥 可 能 会 出 现 意 想 不 到 的 事 。 例 如 ， 如 果 一 个 网 桥 拥塞 ， 它 可 能 不 得 不 丢弃 帧 ， 而 
单一 以 太 网 丢弃 帧 的 情况 是 很 少见 的 。 又 如 ， 扩 展 局 域 网 中 任 一 对 主机 之 间 的 时 延 变 得 更 
大 且 高 度 可 变 ， 而 单一 以 太 网 的 物理 局 限 性 使 得 时 延 很 小 且 可 预知 。 作 为 最 后 的 例子 ， 在 
一 个 扩展 局 域 网 中 对 帧 重 排序 是 可 能 的 (尽管 可 能 性 不 大 )， 而 在 单一 以 太 网 中 帧 的 顺序 
是 不 会 搅乱 的 。 结 论 是 在 运行 于 单一 以 太 网 段 的 假设 下 设计 网 络 软件 绝 不 会 是 安全 的 。 网 
桥 就 是 这 种 情况 .9 | 
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看 到 可 以 使 用 网 桥 和 局 域 网 交换 机 建造 相当 大 型 的 局 域 网 ， 但 是 这 
些 方法 在 扩展 和 处 理 异 构 问 题 上 有 局 限 性 。 本 章 将 探索 克服 桥接 网 络 局 限 性 的 方法 ， 使 得 
我 们 能 够 使 用 相当 有 效 的 路 由 建造 大 型 的 和 高 度 异 构 的 网 络 。 我 们 称 这 样 的 网 络 为 互联 网 
(internetwork) 。 在 下 一 章 里 ， 我 们 将 继续 讨论 如 何 构建 一 个 真正 的 全 局 互联 网 。 当 前 ， 
我 们 先 了 解 一 些 基 础 知识 。 首 先 认真 考虑 一 下 互联 网 一 词 的 含义 。 


3.2.1 什么 是 互联 网 ? 


我 们 用 带 小 写 “i” 的 “internetwork” 或 仅 用 “internet” 指 可 提供 某 种 主机 到 主机 的 
分 组 传送 服务 的 相互 连接 的 任意 网 络 集合 。 例 如 ， 一 个 有 很 多 站 点 的 公司 可 以 租用 电话 公 
司 的 点 到 点 链 路 将 其 不 同 站 点 的 LAN 互联 成 一 个 专用 的 互联 网 。 当 谈论 应 用 广泛 的 目前 
已 连接 大 部 分 网 络 的 全 球 互联 网 时 ， 我 们 用 带 大 写 “I” 的 “Internet” 来 称呼 它 。 本 书 一 
贯 注重 基本 原理 ， 因 此 我 们 主要 希望 你 了 解 “internet” 的 原理 ， 但 是 用 “Internet” 中 的 
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实例 来 阐明 这 些 思想 。 

“网 络 ”、“ 子 网 ”和 “互联 网 ”是 几 个 易 混 淆 的 术语 。 在 3. 2.5 节 以 前 ， 我 们 不 谈 子 
网 。 现 在 ， 我 们 用 网 络 (network) 来 指 前 两 章 讨 论 的 直接 相连 的 网 络 或 交换 网 络 。 这 样 
的 网 络 只 使 用 一 种 技术 ， 如 802.5、 以 太 网 或 ATM。 互 联网 Cinternetwork) 是 这 些 网 络 
互联 的 集合 。 有 了 时， 为 了 避免 意义 不 明确 ,我们 把 互联 的 底层 网 络 称 为 物理 (physical) 
网 络 。 互 联网 是 由 物理 网 络 集合 构成 的 逻辑 (logical) 网 络 。 在 这 种 情况 下 ， 仍 然 可 以 将 
由 网 桥 或 交换 机 相连 的 以 太 网 集合 看 成 一 个 单一 的 网 络 。 

图 3-14 给 出 了 一 个 互联 网 的 例子 。 互 联网 通常 称 为 “网 际 网 ”， 因 为 它 是 由 很 多 更 小 
的 网 络 组 成 的 。 此 图 中 ， 我 们 可 以 看 到 以 太 网 、FDDI 环 和 点 到 点 链 路 。 这 些 网 络 中 的 每 
个 网 络 采用 的 都 是 单一 技术 。 将 这 些 网 络 互联 的 节点 称 为 路 由 器 (router) ， 有 时 也 称 为 网 
关 (gateway)， 但 由 于 这 个 词 还 有 其 他 含义 ， 所 以 我 们 只 使 用 路 由 器 。 


| (以太 网 ) 






网 络 1 
( 无线 ) 


图 3-14 一 个 简单 的 互联 网 。BH, 王 主机 ，R, 一 路 由 器 


网 际 协议 UP) 是 我 们 现今 用 来 建造 可 扩展 的 异 构 互 联网 络 的 关键 工具 。 它 最 早 以 
其 发 明 者 的 名 字 命 名 为 Kahn-Cerf 协议 ,9 可 以 认为 了 运行 于 网 络 集合 的 所 有 节点 CE 
机 和 路 由 器 )， 并 定义 一 种 基础 结构 ， 使 这 些 节点 和 网 络 具 备 一 个 逻辑 互联 网 的 功能 。 
例如 ， 图 3-15 给 出 了 图 3-14 中 的 主机 H5 和 H8 是 如 何 通过 互联 网 逻辑 相连 的 ， 包 含 
每 个 节点 上 运行 的 协议 图 。 注 意 ，TCP 和 UDP 等 高 层 协议 通常 运行 在 主机 的 IP 之 上 。 

本 章 其 余 大 部 分 将 介绍 有 关 IP 的 各 个 方面 。 当 然 ， 建 造 互联 网 也 可 以 不 使 用 IP， 例 
i, Novell 创建 的 互联 网 协议 称 为 IPX， 它 的 基础 是 施乐 公司 设计 的 XNS 互联 网 。 然 而 
因特网 的 规模 使 IP 成 为 最 重要 的 协议 ， 或 者 说 ， 只 有 IP 因特网 是 真正 面 对 可 扩展 性 问题 
的 。 因 此 ， 它 为 研究 可 扩展 的 互联 网 协议 提供 了 最 好 的 实例 。 


© Robert Kahn 和 Vint Cert Al IP 的 设计 而 荣获 2005 年 的 图 灵 奖 ， 这 一 奖项 被 认为 是 计算 机 领域 的 诺 贝尔 奖 。 
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图 3-15 一 个 简单 的 互联 网 ， 说 明 用 于 连接 图 3-14 中 的 H5 和 H8 的 协议 层 。 
ETH 是 运行 在 以 太 网 上 的 协议 


3.2.2 服务 模型 


建造 互联 网 时 最 好 先 定 义 服务 模型 (service model), ， 即 想 要 提供 的 主机 到 主机 的 服 
务 。 为 互联 网 定义 服务 模型 时 主要 关心 的 问题 是 ， 只 有 当 每 个 底层 物理 网 络 都 能 提供 一 种 
主机 到 主机 的 服务 时 ， 我 们 才能 提供 这 种 服务 。 例 如 ， 如 果 底 层 网 络 技术 可 能 随意 延迟 分 
组 ， 那 么 互联 网 服务 模型 就 不 能 保证 在 lms 之 内 传送 每 个 分 组 。 因 此 ， 定 义 IP 服务 模型 
的 原则 是 使 它 的 要 求 尽量 少 ， 在 互联 网 中 出 现 的 任何 技术 都 能 提供 必要 的 服务 。 

可 将 IP 服务 模型 看 成 两 部 分 : 一 是 编 址 方案 ,提供 标识 互联 网 中 所 有 主机 的 方法 ; 
二 是 传送 数据 的 数据 报 (无 连接 的 ) 模型 。 这 种 服务 模型 有 时 也 称 为 尽力 (best-effort) 
服务 模型 ， 这 是 因为 尽管 IP 尽力 传送 数据 报 ， 但 并 不 提供 保证 。 我 们 推 后 编 址 方案 的 讨 
论 ， 先 来 看 数据 传送 模型 。 

1. 数据 报 传送 a 

IP 数据 报 是 IP 的 基础 。3. 1.1 节 中 已 经 提 到 ， 数 据 报 是 一 种 在 网 络 中 以 无 连接 方式 
发 送 的 分 组 类 型 。 每 个 数据 报 携带 足够 的 信息 以 使 网 络 将 分 组 传送 到 正确 的 目的 地 ， 不 需 
要 预先 建立 任何 机 制 来 告诉 网 络 当 分 组 到 达 时 该 怎么 做 。 你 只 需 发 送 它 ， 网 络 就 会 尽力 把 
它 送 到 所 希望 到 达 的 目的 地 。“ 尽 力 ” 服 务 的 意思 是 :如果 出 现 错误 和 分 组 丢失 、 损 坏 、 
误 传 送 或 因 任何 原因 而 没有 到 达 目 的 地 ， 网 络 什么 也 不 做 一 一 它 已 经 尽 了 最 大 努力 ， 这 就 
是 它 必须 做 的 全 部 事情 ， 而 不 采取 从 故障 中 恢复 的 任何 行动 。 有 时 也 将 这 种 服务 称 为 不 可 
靠 Cunreliable) 服务 。 

尽力 的 、 无 连接 的 服务 大 概 是 你 能 从 互联 网 中 得 到 的 最 简单 的 服务 ， 并 且 这 是 很 有 用 
的 服务 。 例 如 ， 如 果 你 在 一 个 提供 可 靠 服务 的 网 络 上 提供 尽力 服务 ， 那 么 很 好 ， 你 最 终 得 
到 的 尽力 服务 正好 是 总 能 传送 分 组 的 服务 。 反 之 ， 如 果 你 在 一 个 不 可 靠 的 网 络 上 采用 一 个 
可 靠 的 服务 模型 ， 那 么 你 将 不 得 不 把 很 多 额外 的 功能 置 于 路 由 器 上 以 弥补 底层 网 络 的 不 
足 。 尽 可 能 使 路 由 器 保持 简单 是 IP 最 初 的 设计 目标 之 一 。 

IP“ 在 任何 技术 上 运行 ”的 能 力 经 常 被 引述 为 其 最 重要 的 特性 之 一 。 值 得 注意 的 是 ， 
在 发 明 IP 时 ,现今 IP 赖 以 运行 的 很 多 技术 还 不 存在 。 迄 今 ， 人 们 发 明 的 所 有 网 络 技术 对 
IP 来 说 都 具备 一 定 的 适应 度 ， 甚 至 有 人 声称 IP 可 以 运行 在 由 信和 铝 传 输 消息 的 网 络 上 。 

尽力 传送 不 仅仅 意味 着 分 组 可 能 丢失 。 有 时 分 组 可 能 不 按 顺 序 传 送 ， 或 者 同一 分 组 可 
能 会 传送 不 止 一 次 。 运 行 在 IP 之 上 的 高 层 协议 或 应 用 需要 知道 所 有 可 能 的 错误 模式 。 
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2. 分 组 格式 | 
显然 ，IP 服务 模型 的 一 个 关键 部 分 是 可 携带 的 分 组 类 型 。 像 大 多 数 分 组 一 样 ，IP 数 
据 报 包含 一 个 首部 ， 后 面 接着 许多 字 节 的 数据 。 首 部 的 格式 如 图 3-16 所 示 。 注 意 ， 我 们 
采用 与 前 面 几 章 不 同 的 形式 来 表示 分 组 ， 这 是 因为 后 面 几 章 在 我 们 主要 关注 的 互联 网 层 及 


其 上 各 层 中 ， 分 组 格式 几乎 都 设计 为 按 32 9 4 se 16 ，19 31 
位 边界 对 齐 ， 以 简化 软件 对 它们 的 处 理 任 Ree ”长 度 | 
务 。 因 此 ， 一般 表示 方法 〔 例 如， 用 于 因 特 | RR a 偏 移 量 | 
网 RFC) 就 是 将 它们 按 32 位 字 的 序列 取出 。 | ”生存 期 ”| 协议 | ” 校 验 和 | 
顶部 的 字 先 被 传送 ， 并 且 每 个 字 最 左边 的 字 ， 源 地 址 / 
节 先 被 传送 。 在 这 种 表示 方法 中 , 可 以 很 容 [pmpiy 
易 地 识别 出 8 位 倍 长 的 字段 。 特 殊 情 况 F，m aa DE JN 


选项 (可 变 长 ) (可 恋 长 ) 


如 果 字 有 段 长 度 不 是 8 位 的 偶数 倍 ， 还 可 以 通 
过 查看 分 组 顶部 标 出 的 比特 位 置 来 确定 字段 
的 长 度 。 | 
| 查看 IP 首部 的 每 个 字段 ， 我 们 发 现 尽 Ee 
力 数据 报 传送 的 “简单 ”模式 还 有 -一些 微妙 he vee 
的 特性 。Version 〈 版 本 ) 字段 说 明 IP 的 版 本 。 当 前 IP 的 版 本 是 4， 有 时 称 为 IPv4。 注 意 
将 这 个 字段 置 于 数据 报 的 开头 会 易于 我 们 在 后 续 版 本 中 重新 定义 分 组 格式 的 其 余部 分 。 首 
部 处 理 软件 从 查看 版 本 开始 ， 然 后 根据 相应 的 格式 分 别处 理 分 组 的 其 余部 分 。 下 一 个 字段 
HLen (首部 长 度 ) 以 32 位 字 为 单位 指定 首部 的 长 度 。 在 没有 其 他 选项 的 时 候 ， 首 部 通常 
是 5 个 字 长 (20 字 节 )。8 位 的 TOS (服务 类 型 ) 字段 多 年 来 有 过 很 多 不 同 的 定义 ， 但 它 
的 基本 功能 是 允许 根据 不 同 的 应 用 需求 对 分 组 进行 不 同 的 处 理 。 例 如 ，TOS 值 可 决定 分 
组 是 否 应 放 在 一 个 特殊 的 接受 低 延迟 的 队列 中 。 我 们 将 在 6. 4. 2 节 及 6. 5. 3 节 中 更 详细 地 
讨论 这 个 字段 的 使 用 (和 它 的 新 名 字 )。 | 

首部 中 接 下 来 的 16 位 是 数据 报 的 Length (KE) 字段 ， 包 括 首部 在 内 的 长 度 。 不 同 
于 HLen FR, Length 字段 计 字 节 数 而 不 是 字数 。 因 此 ，IP 数据 报 的 最 大 尺寸 为 65 535 
字 节 。 然 而 ，IP 运行 的 物理 网 络 可 能 不 支持 如 此 长 的 分 组 。 因此，IP 支持 分 片 和 重组 。 
首部 的 第 二 个 字 包 含 分 片 信息 ， 它 的 使 用 细节 将 在 下 面 的 “分 片 和 重组 ”中 谈 到 。 

在 首部 的 第 三 个 字 中 ， 第 一 个 字 节 是 生存 期 TTL 字段 。 这 个 名 字 反 映 了 它 的 历史 含义 
而 不 是 现在 的 使 用 方式 。 此 字段 的 目的 是 捕捉 在 路 由 环 路 中 转 来 转 去 的 分 组 并 丢弃 它们 ， 而 
不 是 让 它们 无 限 地 消耗 资源 。 最 初 ，TTL 被 设置 为 允许 分 组 生存 的 一 个 指定 的 秒 数 ， 沿 途 的 
路 由 器 将 减 小 这 个 字段 值 直到 为 0。 然而 ， 由 于 分 组 在 路 由 器 中 的 等 待 时 间 很 少 能 达到 1 BD 
钟 ， 并 且 路 由 器 不 是 总 能 访问 到 一 个 公共 时 钟 ， 因 此 大 多 数 路 由 器 都 是 在 转发 分 组 时 将 TTL 
字段 值 减 1。 这 样 ， 它 就 变 成 按 跳 计 数 而 不 是 一 个 计时 器 ， 这 也 是 捕捉 陷入 路 由 循环 的 分 组 
的 一 个 绝 好 的 方法 。 一 个 细节 是 发 送 主 机 对 此 字段 的 初始 设置 : 设置 太 高 ， 分 组 就 会 在 被 丢 
弃 前 转 很 多 圈 ; 设置 太 低 ， 分 组 又 可 能 无 法 到 达 目 的 地 。64 是 当前 的 默认 值 。 

Protocol (协议 ) 字段 只 是 一 个 多 路 分 解 键 ， 用 于 标识 IP 分 组 应 被 送 至 的 高 层 协议 。 
已 定义 了 值 的 协议 有 TCP (传输 控制 协议 - 6) UDP (用 户 数 据 报 协议 - 17) 以 及 很 多 在 
协议 图 中 位 于 IP 之 上 的 其 他 协议 。 p“ | 
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Checksum 〈 校 验 和 ) 字段 通过 将 整个 IP 首部 看 作 一 个 16 位 字 的 序列 进行 计算 ， 使 
用 二 进 制 反 码 相 加 ， 并 对 结果 取 反 码 。 这 就 是 2.4 节 中 描述 的 IP 校 验 和 算法 。 因 此 ， 如 
采 上 自 部 的 任 一 比特 在 传输 中 被 损坏 ， 那 么 收 到 分 组 的 校 验 和 将 包含 不 正确 的 值 。 由 于 一 个 
被 损坏 的 首部 可 能 在 目的 地 址 中 包含 错误 (因此 可 能 导致 错误 传送 )， 因 此 应 当 丢 弃 校 验 
和 值 不 正确 的 分 组 。 需 要 注意 ， 校 验 和 并 不 具备 像 CRC 那么 强 的 检 错 能 力 ， 但 是 它 在 软 
件 中 很 容易 计算 。 

首部 所 需 的 最 后 两 个 字段 是 分 组 的 SourceAddr ( 源 地 址 ) 和 DestinationAddr (目的 
地 址 ) 。 后 者 是 数据 报 传送 的 关键 : 每 个 分 组 包含 一 个 完整 的 目的 地 址 ， 所 以 每 台 路 由 器 
能 够 做 出 转发 决定 。 接 收 方 根据 源 地 址 决定 是 否 接收 分 组 并 做 出 应 答 。IP 地 址 在 3. 2. 3 节 
中 讨论 ， 现 在 重要 的 是 要 知道 IP 定义 自己 的 全 局 地 址 空间 ， 不 依赖 于 在 何 种 物理 网 络 上 
运行 。 正 如 我 们 将 看 到 的 ， 这 是 支持 异 构 性 的 关键 之 一 。 

最 后 ， 在 首部 的 后 端 有 多 个 选项 。 是 和 否 出 现 这 些 选 项 可 通过 检查 HLen (首部 长 度 ) 
字段 确定 。 尽 管 选 项 很 少 被 用 到 ， 但 一 个 完整 的 IP 实现 必须 能 处 理 所 有 选项 。 

3. 分 片 和 重组 “ 

在 一 个 异 构 的 网 络 集合 中 ， 提 供 统 一 的 主机 到 主机 服务 模型 需要 面 对 的 问题 之 一 是 每 
种 网 络 技术 都 试图 自己 定义 分 组 的 大 小 。 人 例如， 以 太 网 能 接收 最 大 长 度 为 1 500 字 节 的 分 
组 ， 而 FDDI 分 组 最 长 可 达 4 500 F. ARAA IP 服务 模型 两 种 选择 : 确保 所 有 IP 数 
据 报 足够 小 ， 使 其 能 适合 任何 网 络 技术 的 分 组 ;或 者 当 IP 数据 报 对 某 一 网 络 技术 来 说 太 
大 时 ， 提 供 一 种 方法 将 分 组 分 片 和 重组 。 后 一 种 方法 较 好 ， 特 别 是 考虑 到 新 的 网 络 技术 将 
不 断 出 现 ， 而 IP 需要 在 所 有 技术 上 运行 ， 这 使 得 选择 一 个 合适 的 小 范围 数据 报 尺 寸 变 得 
困难 。 这 也 就 意味 着 主机 没有 必要 发 送 小 分 组 ， 因 为 这 将 使 被 发 送 数据 的 每 个 字 节 都 需要 
更 多 的 首部 ,会 浪费 市 宽 和 消耗 处 理 资源 。 例 如 ， 两 个 连接 至 FDDI 网 络 的 主机 通过 一 条 
点 到 点 链 路 互联 时 ， 没 有 必要 发 送 足以 适合 以 太 网 的 小 分 组 。 | 

这 里 的 中 心思 想 是 每 种 网 络 类 型 都 有 一 个 最 大 传输 单元 (Maximum Transmission U- 
nit，MTU) ， 这 是 一 帧 中 所 能 携带 的 最 大 数据 报 。 注 意 这 个 值 小 于 网 络 上 的 最 大 分 组 尺 
寸 ， 因 为 IP 数据 报 需 适 合 链 路 层 帧 的 有 效 载荷 Cpayload) .9 | 

因此 ， 当 主机 发 送 IP 数据 报时 ， 它 可 以 根据 需要 选择 尺寸 。 一 个 合理 选择 是 与 主机 
直接 相连 的 网 络 的 MTU。 然 后 ， 只 有 当 到 目的 地 的 路 径 中 包含 一 个 使 用 更 小 MTU 的 网 
络 时 才 需 要 分 片 。 然 而 ， 如 果 IP 之 上 的 传输 协议 发 给 IP 一 个 大 于 本 地 MTU 的 分 组 ， 那 
么 源 主机 必须 将 其 分 片 。 

通常 当 路 由 器 接 到 想 要 在 网 络 上 转发 的 数据 报 ， 而 这 个 网 络 的 MTU 比 所 接 到 的 数据 
报 小 时 ， 那 么 在 路 由 器 上 将 进行 分 片 。 为 使 这 些 分 片 在 接收 主机 上 能 够 重组 ， 它 们 都 在 标 
WA Cdent) 字段 上 携带 同样 的 标识 符 。 这 个 标识 符 由 发 送 主 机 选择 ， 并 且 对 于 所 有 可 
能 在 某 个 合理 时 段 内 从 这 个 源 主机 到 达 目 的 主机 的 数据 报 来 说 是 唯一 的 。 由 于 原始 数据 报 
的 所 有 分 片 都 包含 这 个 标识 符 ， 所 以 重组 主机 能 够 识别 出 这 些 汇聚 到 一 起 的 分 片 。 如 乐 不 
是 所 有 的 分 片 都 到 达 接 收 主机 ， 那 么 主机 将 放弃 重组 进程 并 丢弃 已 到 达 的 分 片 。IP 并 不 
试图 恢复 丢失 的 分 片 。 | 








O BEE. ATM 网 络 中 的 MTU 要 比 一 个 单一 信 元 大 得 多 ， 因 为 ATM 有 自己 的 分 片 方 式 。 在 ATM, $ 
路 层 帧 称 为 汇聚 子 层 协议 数据 单元 〈CS-PDU) 。 ct & 
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为 了 理解 整个 过 程 ， 考 虑 当 图 3-14 所 示 的 互联 网 例子 中 的 主机 H5 向 主机 H8 发 送 一 
个 数据 报时 会 发 生 什 么 。 假 设 两 个 以 太 网 和 802.11 网 络 的 MTU 是 1 500 FF, REL 
FPH IP 首部 加 
Ee FE ir 
ee ee R3 转发 ， 通 过 第 二 个 以 
个 图 还 


络 的 MTU 是 532 #75, PRAM H5 发 送 的 一 个 1 420 


R2 上 就 必须 被 拆 分 为 3 个 数据 报 。 然 后 ， 
太 网 到 达 目 的 主机 。 这 种 情形 在 图 3-17 中 给 出 。 


字 节 的 数据 报 (20 
上 1400 字 节 的 数据 ) 在 经 过 802.11 人 个 以 太 网 时 不 需要 分 片 ， 但 是 


强调 两 个 重点 : 















| 图 3-17 下 数据 报 经 过 图 9-14 所 示 的 一 系列 物理 网 络 
1) 每 个 分 片 本 身 就 是 一 个 在 一 系列 物理 网 络 上 传送 
的 独立 的 IP 数据 报 ， 与 其 他 分 片 无 关 。 | 首部 的 开始 O ă— 
2) 每 个 全 数据 报 在 它 经 过 的 每 个 物理 网 络 上 都 要 | 标识 符 -x | | |0| 偏 移 量 -0 
重新 封装 。 | 首部 的 其 余部 分 
| 通过 图 3-18 所 示 的 每 个 数据 报 的 首部 字段 可 详细 了 cone 
解 分 片 过程 。 图 3- 18a 中 未 分 片 的 分 组 有 1400 字 节 的 数 “一 一 一 一 一 一 一 一 


据 和 20 字 节 的 IP 首部 。 当 分 组 到 达 MTU 为 532 字 节 的 
一 个 532 字 节 的 MTU 中 , 在 20 

节 的 IP 首部 之 后 留 有 512 字 节 的 数据 ， 因 此 第 一 个 分 
ee 512 Fie. PSH arte Flags (标志 ) 字段 中 设 
置 M 位 〈 见 图 3-16)， 意 思 是 后 面 还 有 其 他 的 分 片 ， 并 
设置 Offset ( 偏 移 量 ) 为 0， 因 为 这 个 分 片 包 含 原始 数据 


报 的 第 一 部 分 。 第 二 个 分 片 携带 的 数据 从 原始 数据 报 的 
第 513 个 字 节 开始 ， 因 此 这 个 首部 中 的 Offset 字段 设置 


Fy 64, B512>8, AHAB 8 呢 ? A IP 的 设计 者 认定 
分 片 应 该 发 生 在 8 字 节 边界 的 地 方 ， 即 Offset 字段 以 8 
字 节 而 不 是 以 字 节 为 单位 计数 。( 我 们 把 它 作 为 练习 ， 请 
你 指出 为 什么 要 这 样 设计 ,) BER OR PAS 
376 字 市 数据 ， 偏 移 量 为 2X512 二 8 二 128。 由 于 这 是 最 
后 一 个 分 片 ， 所 以 不 设置 M 位 。 

注意 ， 分 片 过 程 是 以 这 样 一 种 方式 完成 的 ， 如 果 分 
片 到 达 另 一 个 有 更 小 MTU 的 网 络 ， 那 么 分 片 过 程 可 以 
重复 地 进行 。. 分 片 产生 更 小 的 有 效 IP 数据 报 ， 在 接收 方 
多 于 重组 成 原始 的 数据 报 ， 而 与 到 达 顺 序 元 关 。 重 组 在 
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b) 已 分 片 的 分 组 
图 3-18 公分 片 中 所 使 用 的 首部 字 眉 


A 2 wR Ee 


接收 主机 上 而 不 在 每 个 路 由 器 上 进行 。 

IP 重组 绝 非 一 个 简单 的 过 程 。 例 如 ， 即 使 一 个 分 片 丢失 ， 接 收 方 仍 将 试图 重组 数据 
报 ， 而 最 终 将 放弃 并 不 得 不 回收 失败 的 重组 中 所 使 用 的 资源 .9 由 于 这 个 原因 ， 通 常 认 
为 应 该 避免 分 片 。 现 在 ,我 们 强烈 鼓励 主机 执行 “路 径 MTU 发 现 ”， 这 一 过 程 通过 
发 送 足够 小 的 分 组 ， 使 其 能 通过 从 发 送 方 到 接收 方 路 径 上 MTU 最 小 的 链 路 ， 从 而 避免 
TS Fr ae 


3.2.3 全 局 地 址 


在 上 面 IP 服务 模型 的 讨论 中 ， 我 们 曾 提 到 过 它 提供 的 编 址 方案 。 毕 竟 ， 如 果 想 把 数 
据 发 送 到 任 一 网 络 的 任 一 主机 ， 就 需要 有 一 种 方式 来 识别 所 有 主机 。 因 此 ， 我 们 需要 一 个 
全 局 编 址 方案 ， 其 中 任何 两 台 主 机 的 地 址 都 不 能 相同 。 全 局 唯一 性 是 一 个 编 址 方案 所 应 提 
供 的 首要 特性 。S 

以 太 网 地 址 是 全 局 唯一 的 ， 但 仅 此 一 点 还 不 能 满足 一 个 大 型 互联 网 的 编 址 方案 要 求 。 
以 太 网 的 地 址 也 是 扁平 的 〈flat) ， 也 就 是 说 它们 没有 结构 ， 且 几乎 不 为 路 由 协议 提供 线 
索 。 事 实 上， 以 太 网 地 址 的 确 有 一 个 用 于 分 配 (assignment) 目的 的 结构 ， 前 24 比特 标明 
制作 者 。 但 因为 这 个 结构 对 于 网 络 拓扑 没有 影响 ， 所 以 它 没有 给 路 由 协议 提供 任何 有 用 信 
H. EZF., IP 地址 是 分 层 的 〈hierarchical) ， 即 它们 由 对 应 于 互联 网 某 种 层次 结构 的 
几 个 部 分 构成 。 更 确切 地 说 ，IP 地 址 包括 两 部 分 : 网 络 (network) 部 分 和 主机 Chost) 
部 分 。 对 于 由 多 个 相互 连接 的 网 络 组 成 的 互联 网 而 言 ， 这 是 一 个 非常 合理 的 结构 。IP 地 
址 的 网 络 部 分 指明 主机 连接 到 哪个 网 络 ， 所 有 连 到 同一 网 络 主机 的 IP 地 址 的 网 络 部 分 相 
同 。IP 地 址 的 主机 部 分 唯一 地 标识 特定 网 络 中 的 每 台 主 机 。 这 样 ， 在 如 图 3-14 所 示 的 简 
单 网 络 中 ， 网 络 1 中 主机 的 地 址 有 相同 的 网 络 部 分 和 不 同 的 主机 部 分 。 | 

注意 图 3-14 中 路 由 器 被 连接 到 两 个 网 络 。 它 们 在 每 个 网 络 上 都 需要 一 个 地 址 ， 一 个 
接口 分 配 一 个 地 址 。 例 如 ， 位 于 无 线 网 和 以 太 网 之 间 的 路 由 右 R1， 在 到 无 线 网 的 接口 上 
有 一 个 IP 地 址 ， 且 与 无 线 网 中 主机 的 网 络 部 分 相同 ， 而 到 以 太 网 接口 上 的 IP 地 址 则 与 以 
太 网 主机 的 网 络 部 分 相同 。 因 此 ， 记 住 路 由 器 可 以 用 具有 两 个 网 络 接口 的 一 台 主 机 的 方式 
实现 ， 更 确切 地 说 ， 应 把 IP 地 址 视 为 属于 接口 而 不 是 属于 主机 。 

现在 ， 这 些 分 层 性 地 址 看 起 来 像 什 么 ? 与 其 他 某 些 
分 层 地 址 格式 不 同 的 是 ， 所 有 地 址 的 两 部 分 长 度 都 不 相 
同 。 如 图 3-19 Bra, IP 地 址 分 为 三 种 不 同 的 类 型 ， 每 
种 类 型 都 定义 不 同 长 度 的 网 络 部 分 和 主机 部 分 。 (还 有 
将 在 4. 2 节 中 讨论 的 说 明 多 播 组 的 D 类 地 址 ， 而 下 类 地 | 1 0| 
址 现在 已 经 不 再 使 用 .) 所 有 情况 下 ， 地 址 均 为 32 b) BAS 
Wage 

IP 地 址 的 类 型 由 最 高 位 的 几 个 比特 标识 。 如 果 第 1 
位 是 0， 即 为 A 类 地 址 。 如 果 第 1 位 是 1、 第 2 位 是 0， 
则 为 B 类 地 址 。 如 果 前 2 位 是 1 而 第 3 位 是 0， 则 为 C 图 3-19 IP 地 址 














O 在 第 8 章 中 我 们 将 会 看 到 ， 使 主机 占用 不 必要 的 资源 可 能 会 导致 拒绝 服务 攻击 。 
O 不 过 ， 现 代 互 联网 中 不 再 强调 全 局 地 址 ， 理 由 涉及 很 多 方面 ， 详 见 4.1 节 。 
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类 地 址 。 这 样 ， 对 大 约 40 亿 个 可 能 的 IP 地 址 来 说 ，1/2 是 A 类 , 1/4 是 B 类 ，1/8 ÆC 
类 。 每 一 类 都 分 配 一 定数 目的 位 给 地 址 的 网 络 部 分 ， 而 其 余 的 留 给 主机 部 分 。A 类 网 络 IP 
地 址 的 网 络 部 分 有 7 位 ， 主 机 部 分 有 24 位 ， 意 味 着 只 能 有 126 个 A 类 网 络 (0 和 127 保 
留 ) ， 但 每 一 类 都 能 容纳 最 多 22 一 2 (大 约 1 600 万 ) 台 主 机 (同样 ， 有 两 个 保留 值 )。B 
类 地 址 分 配 14 位 给 网 络 部 分 、16 位 给 主机 部 分 ， 意 味 着 每 个 B 类 网 络 能 容纳 65 534 GE 
机 。 最 后 ，C 类 地 址 只 将 8 位 给 主机 部 分 、 其 余 21 位 均 为 网 络 部 分 ， 所 以 ，C 类 网 络 只 可 
以 有 256 个 唯一 的 主机 标识 符 ， 意 味 着 只 能 连接 254 GEM ( 预 留 一 台 主 机 标识 255 用 于 
广播 ，0 是 非法 主机 号 ) 。 然 而 ， 此 编 址 方案 支持 22 个 CAMA. 
表面 上 看 ， 这 种 编 址 方案 有 着 很 大 的 灵活 性 ， 使 得 众多 不 同 规模 的 网 络 可 以 非常 有 效 
地 共存 。 最 初 的 思想 是 因特网 将 包含 一 小 部 分 广域网 A 类 网 络 ) 、 相 当 数 量 站 点 〈 校 园 ) 
规模 的 网 络 (B 类 网 络 ) 和 大 量 局 域 网 (C 类 网 络 ) 。 然 而 ， 正 如 我 们 看 到 的 ， 现 在 的 编 
制 方案 并 没有 足够 的 灵活 性 。 当 前 ，IP 地 址 通常 是 “无 类 的 >， 具体 细节 接 下 来 解释 。 

在 我 们 了 解 如 何 使 用 IP 地 址 之 前 ， 先 来 看 一 些 实际 的 事情 ， 比 如 如 何 将 IP 地 址 写 下 
来 。 按 照 惯 例 ，IP 地 址 被 写成 4 个 以 点 相隔 的 十 进 制 (decimal) 整数 。 每 个 整数 表示 一 
个 十 进 制 数 值 ， 包 含 在 地 址 的 一 个 字 节 中 ， 从 最 高 位 开始 。 例 如 ， 键 入 这 个 句子 的 计算 机 
的 地 址 是 171. 69. 210. 245, | | 

重要 的 是 不 要 将 IP 地 址 与 因特网 的 域名 相 混淆 ， 域 名 也 是 分 层 的 。 域 名 是 以 点 分 隔 
的 ASCII 码 字 符 串 ， 如 cs. princeton. edu， 我 们 将 在 9. 3. 1 节 中 讨论 它 。 关 于 IP 地 址 的 重 
要 事项 是 IP 分 组 首部 携带 的 信息 ，IP 路 由 器 正 是 使 用 其 中 的 地 址 做 出 转发 决定 的 。 








warding) 是 将 从 输入 端口 得 到 的 一 个 分 组 通过 适当 输出 端口 发 送出 去 的 过 程 ， 而 路 由 
(routing) 是 建造 一 张 表 以 决定 分 组 的 正确 输出 端口 的 过 程 。 本 节 讨 论 的 重点 是 转发 ， 路 
由 将 在 3. 3 节 中 讨论 。 


当 我 们 讨论 IP 数据 报 的 转发 时 ， 要 记 住 以 下 几 个 要 点 

。 每 个 IP 数据 报 均 包含 目的 主机 的 IP 地 址 。 

。 IP 地 址 的 网 络 部 分 唯一 地 标识 作为 更 大 的 因特网 一 部 分 的 一 个 物理 网 络 。 

。 在 连接 到 同一 物理 网 络 上 的 所 有 主机 和 路 由 器 的 地 址 中 ， 其 网 络 部 分 相同 ， 因 此 

可 以 通过 在 网 络 上 发 送 帧 而 彼此 通信 。 

每 个 作为 因特网 一 部 分 的 物理 网 络 ， 按 照 定义 至 少 有 一 台 路 由 器 同时 至 少 连接 到 
.一 个 其 他 的 物理 网 络 ， 这 人 台 路 由 器 可 以 与 其 中 任 一 网 络 的 主机 或 路 由 器 交换 分 组 。 
因此 ， 转 发 IP 数据 报 可 以 按 以 下 方法 处 理 。 一 个 数据 报 从 源 主机 发 往 目 的 主机 ， 沿 

途 可 能 经 过 多 台 路 由 器 。 任 何 一 个 节点 ,无论 是 主机 还 是 路 由 器 ， 首 先 试图 确定 自己 是 否 

与 目的 主机 连接 在 同一 个 物理 网 络 上 。 为 了 做 到 这 一 点 ， 它 比较 目的 地 址 的 网 络 部 分 和 它 

的 每 一 个 网 络 接口 地 址 的 网 络 部 分 。 (主机 通常 有 一 个 接口 ， 而 路 由 器 通常 有 两 个 或 多 个 

接口 ， 因 为 它们 一 般 连接 在 两 个 或 多 个 网 络 上 。) 如 果 匹 配 ， 那 么 就 意味 着 目的 地 址 与 接 

口 位 于 同一 网 络 中 ， 分 组 可 以 在 此 网 络 中 直接 传送 。3. 2.6 节 将 解释 这 个 过 程 的 一 些 

细节 。 

如 果 没 有 被 作为 目的 节点 而 连接 到 同一 个 物理 网 络 上 ， 就 需要 将 数据 报 发 往 路 由 器 。 


e 


”一般 而 言 ， 每 个 节点 都 有 多 台 路 由 器 可 供 选 择 ， 因 此 它 需 选择 一 个 最 佳 的 或 至 少 是 有 较 好 
机 会 使 数据 报 更 接近 目标 的 路 由 器 。 所 选择 的 路 由 器 称 为 下 一 跳 (next hop) 路 由 器 。 该 
路 由 器 通过 查询 它 自己 的 转发 表 找到 正确 的 下 一 跳 。 从 概念 上 讲 ， 转 发 表 就 是 一 个 包括 
(NetworkNum, NextHop) (网 络 号 ， 下 一 跳 ) 对 的 表 。 (下 面 我 们 将 看 到 ， 实 际 上 转发 
表 还 包括 和 下 一 跳 有 关 的 额外 信息 。) 通常 还 有 一 台 默 认 路 由 器 ， 当 表 上 的 条 目 与 目标 网 
络 号 都 不 匹配 时 将 会 使 用 默认 路 由 器 。 对 于 主机 来 说 ， 仅 有 一 台 默 认 路 由 器 是 完全 可 以 接 
受 的 ， 它 意 味 着 当 目 的 主机 与 发 送 主机 不 在 同一 一 个 物理 网 络 时 所 有 数据 报 将 通过 默认 路 由 
器 发 出 。 
我 们 可 将 数据 报 转 发 算法 描述 如 下 ， 


if( 目 的 节点 的 NetworkNum = 我 的 一 个 接口 的 NetworkNum) then 
经 过 那个 接口 传送 分 组 到 目的 节点 | 
else | | 
if( 目 的 节点 的 NetworkNum 在 我 的 转发 表 中 ) then 
传送 分 组 到 NextHop 路 由 器 
else 


fe RAH BIRD TE 
对 于 只 有 一 个 接口 且 转 发 表 中 只 有 一 全 默认 路 由 融 的 主机 来 说 ， 算 法 可 以 简化 如 下 


if( 目 的 节点 的 NetworkNum = 我 的 网 络 号 )then 
直接 传送 分 组 到 目的 节点 
else 


传送 分 组 到 默认 路 由 器 | 

我 们 来 看 这 个 算法 在 图 3-14 所 示 的 互联 网 中 是 如 何 工 作 。 首 先 ， 假 设 H1 要 发 送 一 个 
数据 报到 H2。 由 于 它们 在 同一 个 物理 网 络 中 ，H1 和 H2 的 IP 地 址 有 相同 的 网 络 部 分 ， 
于 是 Hl 推断 可 以 在 以 太 网 上 直接 向 H2 发 送 数据 报 。 这 里 有 一 个 问题 需要 解决 ， 即 H1 
如 何 找到 H2 的 正确 以 太 网 地 址 一 一 这 是 3. 2. 6 节 描 述 的 地 址 解析 机 制 。 





网 桥 、 交 换 机 和 路 由 剧 


网 桥 、 交 换 机 和 路 由 器 很 容易 被 混淆 。 对 于 这 样 的 混淆 ， 很 可 能 的 一 个 原因 是 在 某 一 
层 上 ， 它 们 都 是 从 一 条 链 路 把 消息 转发 到 另 一 条 链 路 。 人 们 根据 分 层 对 它们 做 出 区 分 : 网 
桥 是 链 路 层 节点 (它们 在 链 路 间 转 发 帧 以 实现 扩展 的 LAN)， 交 换 机 是 网 络 层 节点 (它们 
在 链 路 间 转 发 分 组 以 实现 分 组 交换 网 络 ) ， 路 由 器 是 互联 网 层 节点 〈 它 们 在 网 络 之 间 转 发 
数据 报 以 实现 互联 网 )， : | 

网 桥 和 交换 机 之 间 的 区 别 正 在 迅速 地 消失 。 比 如 ， 我 们 已 经 可 以 看 到 多 口 网 桥 通常 称 
为 以 太 网 交换 机 或 者 局 域 网 交换 机 。 正 因 如 此 ， 网 桥 和 交换 机 通常 编组 为 “第 二 层 设 备 ”。 
这 里 第 二 层 是 指 “ 在 物理 层 之 上 ， 在 互联 网 层 之 下 ”。 

历史 上 ， 局 域 网 交换 机 (或 网 桥 ) 与 广域网 交换 机 (比如 基于 ATM URP) 之 
问 曾 有 一 些 重要 区 别 。 局 域 网 交换 机 传统 上 基于 生成 机 算法 而 广域网 交换 机 通常 运行 路 
由 协议 ， 从 而 允许 每 台 交 换 机 学 习 整 个 网 络 的 拓扑 。 这 是 一 个 很 重要 的 区 别 ， 因 为 如 果 能 
THD OHA, MARARNRNTAAWEN, NR, RUA HL 
发 消息 的 单一 树 上 。 另 外 ， 生 成 机 方法 无 法 扩展 。 同 样 ， 这 个 区 别 受 到 的 威胁 是 广 域 路 由 
协议 开始 调整 其 工作 方式 并 进入 局 域 网 交换 机 。 
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交换 机 和 路 由 器 之 间 又 有 什么 区 别 ? 从 内 部 技术 上 讲 ， 两 者 看 起 来 很 相似 〈 在 讲 路 由 
器 实现 时 将 阐述 这 一 点 ) ， 关 键 区 别 是 它们 转发 分 组 的 种 类 : 路 由 器 转发 IP 数据 报 ， 而 交 
换 机 转发 第 二 层 分 组 UAW HRA ATM ER). 

交换 机 构造 的 ATM 网 络 和 路 由 器 构造 的 因特网 之 间 的 一 个 很 大 的 区 别 是 ， 因 特 网 可 
以 适应 异 构 性 ， 而 ATM 只 包含 同 构 链 路 。 II ee 
ROL, LECH IP ARETT RUMBLE G ATM ADK, $3 
协议 被 看 作 第 二 层 技术 。 


现 假设 H5 要 发 送 一 个 数据 报 给 H8。 由 于 不 在 同一 个 物理 网 络 中 ， 它 们 有 不 同 的 网 
络 号 ， 因 此 HS 推断 需 将 数据 报 发 送 给 路 由 器 。R1 是 唯一 选择 ， 默 认 路 由 器 。 所 以 H5 通 
过 无 线 网 将 数据 报 发 给 R1。 类 似 地 ，R1 知道 不 能 直接 将 数据 报 发 给 H8， 因 为 R1 的 任何 
一 个 接口 都 不 和 HS8 在 同一 个 物理 网 络 中 。 假 设 R1 的 默认 路 由 器 是 R2，R1 通过 以 太 网 
将 数据 报 发 给 R2。 假 设 R2 的 转发 表 如 表 3-5 所 
示 ， 它 找到 H8 的 网 络 号 (网络 4)， 并 转发 数据 e a i talk 
报 至 R3。 最 后 ， 由 于 R3 与 H8 处 于 同一 个 物理 
网 络 中 ，R3 将 数据 报 直接 发 送 至 H8。 

注意 转发 表 中 可 能 包含 直接 相连 的 网 络 的 信 
息 。 例 如 ， 我 们 可 以 将 路 由 器 R2 的 网 络 接口 标 





表 3-6 图 3- 14 中 路 由 器 R2 的 完整 转发 表 


se 
记 为 点 到 点 链 路 网络 3) 中 的 接口 0 和 以 太 网 aa - 

(网 络 2) PAHO 1, ABA R2 将 得 到 如 表 3-6 所 2 接口 1 
示 的 转发 表 。 本 本 a. 


因此 ， 对 于 R2 在 一 个 分 组 中 仙 到 的 任何 网 络 ”一 一 一 一 一 
号 ， 它 都 知道 该 怎么 做 。 如 果 网 络 直接 与 R2 相连 ， 这 时 分 组 可 通过 网 络 被 送 达 目的 地 ; 
如 果 网 络 可 经 某 个 下 一 跳 路 由 器 到 达 ， 此 时 R 可 经 过 所 连接 的 网 络 到 达 此 路 由 器 。 在 任 
何 一 种 情况 下 ，R2 都 使 用 下 面 描述 的 ARP 来 找到 分 组 将 要 发 送 到 的 下 一 节点 的 MAC 
地 址 。 | | 
R2 使 用 的 转发 表 很 简单 ， 可 以 用 手工 方式 配置 。 然 而 ， 通 
要 运行 路 由 协议 来 建造 ，3. 3 节 描 述 了 这 样 一 个 路 由 协议 。 实 际 
更 长 (如 128.96), 
我 们 现在 能 看 到 分 层 编 址 一 一 将 地 址 分 为 网 络 部 分 和 主机 部 分 一 一 如 何 提高 大 型 网 络 
的 可 扩展 性 。 路 由 器 现在 包含 的 转发 表 只 列 出 一 组 网 络 号 ， 而 不 是 网 络 中 的 所 有 节点 。 在 
我 们 简单 的 例子 中 ，R2 能 够 在 一 个 4 2 ae ee eee 
台 主 机 ) 所 需 的 信息 。 即 使 每 个 物理 网 络 有 100 GER, R2 也 只 需 同 样 的 4 条 记录 。 
是 实现 可 扩展 性 的 良好 的 第 一 步 (虽然 绝 不 是 最 后 一 步 )。 | 
结论 ”这 里 说 明 建造 可 扩展 的 网 络 的 最 重要 原则 之 一 : 为 达到 可 扩展 性 ， 需 要 减 
少 存储 在 每 个 节点 上 以 及 在 节点 之 间 交 换 的 信息 量 。 最 常用 的 方法 是 分 层 聚 合 
Chierarchical aggregation). IP 采用 两 层 的 层次 结构 ， 网 络 在 上 层 ， 节 点 在 下 层 。 
我 们 通过 让 路 由 器 只 处 理 如 何 到 达 正 确 的 网 络 来 聚合 信息 ， 将 路 由 器 ee 
据 报 到 给 定 网 络 中 任 一 节点 所 需要 的 信息 表示 为 一 一 条 聚合 信息 。 


常 这 些 
际 中 还 需 注 i mx] 25 





3.2.5 子 网 划分 和 无 类 地 址 


IP 地 址 的 最 初 目的 是 希望 其 网 络 部 分 能 够 唯一 明确 确定 一 个 物理 网 络 ， 然 而 这 种 方 
法 有 两 个 缺点 。 假 设 一 个 大 型 校园 中 有 很 多 内 部 网 络 ， 并 决定 连接 到 因特网 上 。 对 每 个 网 
络 来 说 ， 不 管 多 么 小 ， 都 至 少 需要 一 个 C 类 网 络 地 址 。 对 某 些 多 于 255 台 主 机 的 网 络 来 
说 ， 甚 至 需要 一 个 B 类 地 址 。 看 起 来 这 也 许 不 是 一 个 大 问题 ， 事 实 上 在 因特网 的 最 初 构想 
中 也 确实 不 是 什么 大 问题 ， 但 是 我 们 只 有 为 数 有 限 的 网 络 号 ,并且 B 类 网 络 地 址 比 C 类 少 
得 多 。 对 B 类 地 址 往往 会 有 很 高 的 需求 ， 因 为 你 不 知道 网 络 是 否 会 扩展 到 超过 255 个 节 
点 ， 因 此 一 开始 就 使 用 B 类 地 址 比 在 超出 一 个 C 类 网 络 的 空间 时 再 对 每 台 主 机 重新 编号 要 
容易 得 多 。 这 里 我 们 关注 的 问题 是 地 址 分 配 的 低 效率 ， 只 有 两 个 节点 的 网 络 使 用 一 个 完整 
的 C 类 网 络 地 址 ， 那 么 就 浪费 了 253 个 有 用 地 址 ; 一 个 只 有 稍 多 于 255 台 主 机 的 B 类 网 
络 ， 则 浪费 64 000 个 以 上 的 地 址 。 | 

”如 果 给 每 个 物理 网 络 分 配 一 个 网 络 号 ， 耗 尽 IP 地 址 空间 的 速度 就 比 我 们 想象 的 快 得 
多 。 虽然 我 们 需要 连接 超过 40 亿 台 主机 才能 用 完 所 有 合法 的 地 址 ， 但 是 连接 214 (的 
16 000) 个 B 类 网 络 就 能 用 完 B 类 地 址 空间 。 因 此 ， 我 们 希望 找到 一 个 更 有 效 地 使 用 网 络 
号 的 方法 。 | | 

当 你 考虑 路 由 时 ， 就 会 发 现 分 配 多 个 网 络 号 有 另 一 个 明显 缺点 。 回 忆 一 下 ， 参 与 路 由 
协议 的 节点 中 存储 的 状态 数量 是 与 其 他 节点 数 成 正比 的 ， 同 时 ， 一 个 互联 网 中 的 路 由 包括 
建立 转发 表 ， 这 张 表 告诉 路 由 器 如 何 到 达 不 同 的 网 络 。 这 样 ， 使 用 的 网 络 号 越 多 ， 转 发 表 
就 越 大 。 大 转发 表 增 加 了 路 由 器 的 开销 ， 并 且 在 使 用 同一 种 技术 时 ， 大 表 中 的 查找 速度 比 
小 表 中 的 查找 速度 慢 ， 因 此 降低 了 路 由 器 的 性 能 。 这 是 另 一 个 需要 仔细 分 配 网 络 号 的 
原因 。 

划分 子 网 (subnetting) 提供 了 减少 分 配 网 络 号 总 数 的 第 一 步 。 其 思想 是 只 用 一 个 网 
络 号 ， 把 具有 这 个 网 络 号 的 IP 地 址 分 配给 多 个 物理 网 络 ， 这 些 物理 网 络 叫 作 子 网 (sub- 
net) 。 为 使 这 种 做 法 行 之 有 效 ， 需 要 做 几 件 事 : 第 一 ， 子 网 应 当 彼 此 离 得 很 近 。 这 是 因为 
从 因特网 远 处 的 一 个 点 上 看 ， 它 们 像 是 一 个 单一 网 络 ， 只 有 一 个 网 络 号 。 这 意味 着 一 台 路 
由 器 将 只 能 选择 一 个 路 由 来 到 达 任何 子 网 ， 因 此 它们 最 好 在 同一 方向 上 。 子 网 的 最 佳 应 用 
环境 是 在 一 个 有 多 个 物理 网 络 的 大 型 校园 或 公司 中 。 从 校园 之 外 到 达 校 园 内 任 一 子 网 时 ， 
你 只 需 知道 校园 网 连 在 因特网 的 什么 地 方 。 这 通常 是 一 个 点 ， 因 此 在 转发 表 中 只 需 一 条 记 
录 就 够 了 。 即 使 校园 网 中 有 多 个 点 连接 在 因特网 的 其 余部 分 上 ， 也 最 好 先知 道 如 何 到 达 校 
园 网 的 一 个 点 。 

在 多 个 网 络 当 中 共享 一 个 网 络 号 的 机 制 涉及 使 用 子 网 掩 码 (subnet mask) 配置 每 个 
子 网 中 的 所 有 节点 。 使 用 简单 IP 地 址 时 ， 同 一 网 络 中 的 所 有 主机 必须 有 相同 的 网 络 号 。 
子 网 捧 码 使 我 们 可 以 引入 一 个 子 网 号 (subnet number)， 同 一 物理 网 络 中 的 所 有 主机 将 会 
有 相同 的 子 网 号 ， 这 意味 着 主机 可 能 处 于 不 同 的 物理 网 络 中 ， 但 共享 一 个 网 络 号 ;这 个 概 
念 的 解释 见 图 3-20。 | 

划分 子 网 对 主机 来 说 意味 着 现在 它 是 由 IP 地 址 和 它 所 连接 子 网 的 掩 码 来 配置 的 。 例 
如 ， 图 3-21 中 的 主机 H1 配置 的 地 址 为 128. 96. 34.15， 子 网 掩 码 是 255. 255. 255. 128。 
“(在 一 个 给 定 的 子 网 中 ， 所 有 主机 都 配置 相同 的 掩 码 ， 即 每 个 子 网 只 有 一 个 掩 码 。〉 将 这 两 
个 数 的 按 位 与 运算 结果 定义 为 此 主机 和 同一 子 网 内 的 所 有 其 他 主机 的 子 网 号 。 在 这 种 情况 
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Fs 128. 96. 34.15 和 255. 255. 255. 128 按 位 做 与 运算 等 于 128. 96. 34.0， 这 就 是 此 图 中 最 
上 端子 网 的 子 网 号 。 k 


FR.: 255.255.255.128 








FTR: 255.255.255.128 
子 网 号 : 128.96.34.128 


| 128.96.34.139 





子 网 掩 码 ( 255.255.255.0 ) 





| ee a A O FMB: 255.255.255.0 — 
划分 子 网 后 的 地 址 子 网 导 : 128.96.33.0 
3-20 子 网 地 址 图 3-21 划分 子 网 的 例子 


当主 机 要 发 送 一 个 分 组 到 一 个 特定 的 IP 地址 时 ， 它 所 做 的 第 一 件 事 就 是 用 它 目 己 的 子 网 
捧 码 与 目标 IP 地 址 做 按 位 与 运算 。 如 果 结 果 等 于 发 送 主机 的 子 网 号 ， 那 么 它 就 得 知 目 的 
主机 在 同一 子 网 内 ,分 组 可 以 在 子 网 中 直接 传送 。 如 果 结 果 不 等 于 发 送 主机 的 子 网 号 ， 束 
需要 把 分 组 发 送 给 一 台 路 由 器 以 便 转发 到 另 一 子 网 。 例 如 ， 如 果 Hl 向 H2 RK, WA HI 
将 它 的 子 网 掩 码 (255. 255. 255.128) 和 H2 的 地 址 (128. 96. 34. 139) 进行 按 位 与 运算 得 
到 128. 96. 34. 128。 这 与 H1 的 子 网 号 128. 96. 34.0 不 匹配 ， 因 此 H1 得 知 H2 在 另 一 个 不 
同 的 子 网 中 。 由 于 H1 不 能 直接 在 子 网 上 传递 分 组 给 H2， 所 以 它 将 分 组 传送 给 它 的 默认 
路 由 器 R1. 

当 我 们 引入 子 网 的 概念 后 ， 路 由 器 的 转发 表 也 发 生 了 一 点 变化 。 回 忆 一 下 ， 我 们 刚才 
有 一 个 转发 表 ， 这 个 表 由 成 对 形式 的 ‘NetworkNum，NextHop)(《 网 络 号 ,下 一 跳 )) 的 
记录 组 成 。 为 了 支持 划分 子 网 ， 表 中 各 记录 的 形式 现在 必须 保存 (“SubnetNum，Subnet- 
Mask，NextHop(( 子 网 号 ， 子 网 掩 码 ， 下 一 跳 ) ) 形式 的 记录 。 为 了 在 表 中 找到 正确 的 记 
录 ， 路 由 器 将 分 组 的 目的 地 址 与 每 个 记录 的 子 网 掩 码 依次 进行 按 位 与 运算 。 如 果 结 果 与 
某 一 记录 的 子 网 号 相 匹 配 ， 那 么 这 就 是 要 使 用 的 
记录 ,然后 将 分 组 转发 到 指定 的 下 一 跳 路 由 器 。 ES? 图 3-21 PMR AR 
在 图 3-21 所 示 的 网 络 中 ， 路 由 器 Rl 的 记录 如 表 o 









5 128. 96. 34. 0 255. 255. 255. 128 
ZN o 128. 96. 34. 128 






继续 看 从 H1 回 H2 传送 数据 报 的 例子 ，R1 
将 H2 的 地 址 (128. 96. 34. 139) 与 第 一 个 记录 的 
子 网 掩 码 (255. 255. 255.128) 进行 按 位 与 运算 ， 并 将 结果 (128. 96. 34.128) 与 这 一 记录 
的 网 络 号 (128. 96. 34. 0) 进行 比较 。 由 于 不 匹配 ， 所 以 继续 比较 下 一 记录 。 这 一 次 出 现 
匹配 ， 所 以 R1 通过 接口 1 将 数据 报 送 往 H2， 接 口 1 与 H2 在 同一 网 络 中 ，。 

我 们 现在 可 将 数据 报 转发 算法 描述 如 下 : 

D= 目标 IP 地 址 


255. 255. 255. 128 
255. 255. 255. 0 


128. 96. 33. 0 





WB wR 119 


对 于 每 个 转发 表 入 口 (SubnetNumber,， SubnetMask, NextHop》 
D1= SubnetMask & D : 
if Dl= SubnetNumber 
if NextHop 是 一 个 接口 
传送 数据 报到 目标 
else 


传送 数据 报到 NextHop (一 全 路 由 器 ) 

尽管 这 个 例子 中 没有 给 出 ， 但 表 中 通常 包含 默认 路 由 器 ， 可 在 找 不 到 明确 的 匹配 时 使 
用 。 需 要 指出 ， 单 纯 地 实现 这 种 算法 效率 是 很 低 的 ， 将 会 重复 地 进行 目的 地 址 与 子 网 捧 码 
的 按 位 与 运算 (而 子 网 掩 码 可 能 并 非 每 次 都 不 相同 ) 以 及 线性 表 搜 索 。 

有 关子 网 划分 的 一 个 重要 结论 是 ， 互 联网 的 不 同 部 分 将 看 到 不 同 的 东西 。 从 我 们 假想 
的 校园 外 部 ， 路 由 各 看 到 的 是 一 个 单一 网 络 。 在 以 上 提 到 的 例子 中 ,校园 外 的 路 由 器 把 图 
3-21 的 网 络 集合 只 看 作 网 络 128. 96， 并 且 转 发 表 中 有 一 条 记录 告诉 它们 如 何 到 达 这 个 网 
络 。 然 而 ， 校 园 内 的 路 由 器 需要 能 够 通过 选择 路 由 将 分 组 传 到 正确 的 子 网 。 因 此 ， 并 不 是 
互联 网 的 所 有 部 分 神 能 看 到 同样 的 路 由 信息 。 这 是 一 个 聚合 (aggregation) 路 由 信息 的 例 
子 ， 这 些 聚 合 信息 是 扩展 路 由 系统 的 基础 。 后 文 将 会 介绍 聚合 的 其 他 应 用 实例 。 

1. 无 类 地 址 | | 

子 网 划分 有 一 个 同类 ， 有 时 也 称 为 超 网 (super netting)， 但 通常 称 为 无 类 域 间 路 由 
(Classless Interdomain Routing，CIDR， 发 音 为 “cider”) 。CIDR 用 子 网 划分 的 思路 处 理 
地 址 类 划分 从 而 得 到 其 逻辑 结论 。 那 么 为 什么 子 网 无 法 满足 需要 呢 ? 本 质 上 讲 ， 子 网 只 多 
许 我 们 把 一 些 类 别 的 地 址 在 多 个 子 网 内 分 拆 ， 而 CIDR 允许 我 们 将 不 同类 的 地 址 组 成 一 个 
单独 的 “ 超 网 ”。 这 样 进一步 解决 了 地 址 空间 不 足 的 问题 ， 且 可 防止 路 由 系统 过 载 。 

让 我 们 看 一 下 地 址 空间 的 效率 与 可 扩展 性 问题 是 如 何 共 存 的 。 假 设 某 公 司 的 网 络 由 
256 台 主 机 构成 。 此 时 ， 要 分 配 太 多 的 CC 类 地 址 ， 所 以 你 会 希望 绑 定 一 个 了 类 地 址 。 然 
而 ， 将 一 个 可 以 容纳 65 535 个 地 址 的 主干 地 址 空间 分 给 256 台 主 机 ， 其 占用 率 仅 仅 是 
256/65 535=0. 39% 。 即 使 划分 子 网 可 以 使 我 们 更 细致 地 分 配 地 址 ， 但 一 个 无 法 回避 的 事 
实 是 任何 一 个 超过 255 台 主 机 的 组 织 ， 或 现在 没有 但 最 终 可 能 达到 如 此 多 主机 数 的 组 织 仍 
. 然 需 要 一 个 B 类 地 址 。 

我 们 面 对 此 类 问题 的 第 一 种 处 理 方法 是 拒绝 给 任何 组 织 B 类 地 址 (除非 有 证 据 显 示 他 
们 的 需求 接近 64K 个 地 址 ) ， 而 是 给 他 们 合适 的 C 类 地 址 以 满足 主机 数目 要 求 。 由 于 我 们 
现在 每 次 以 256 个 地 址 为 单位 分 配 空间 ， 所 以 能 够 更 精确 地 与 组 织 消耗 的 地 址 空间 数 相 匹 
配 。 对 于 任何 一 个 至 少 有 256 台 主 机 的 组 织 来 说 ,我们 可 以 保证 地 址 的 利用 率 至 少 达 到 
50% ， 且 通常 更 高 。 

然而 ， 这 种 解决 方法 会 引起 一 个 严重 的 问题 : WRAY OR. MRP 
点 被 分 配 了 16 个 C 类 网 络 号 ， 就 意味 着 每 个 因特网 主干 网 路 由 峰 的 路 由 表 中 需要 16 条 记 
录 才 能 将 分 组 传送 到 该 站 点 ， 即 使 到 这 些 网 络 的 路 径 相 同 也 是 如 此 。 如 果 我 们 给 这 个 站 点 
分 配 一 个 B 类 地 址 ， 同 样 的 路 由 信息 就 可 以 存储 为 一 条 表 记 录 。 然 而 ,地址 分 配 的 效率 将 
只 有 16X255/65 536=6.2%, 

因此 ，CIDR 尝试 在 减少 一 台 路 由 器 所 需 知 道 的 路 由 数 的 愿望 与 有 效 分 配 地 址 的 需求 
之 间 取 得 平衡 。 为 做 到 这 一 点 ，CIDR 帮助 我 们 聚 含 (aggregate) 路 由 。 就 是 说 ， 它 让 我 
们 仅 使 用 转发 表 中 的 一 条 记录 来 知道 如 何 到 达 多 个 不 同 的 网 络 。 你 可 能 已 经 从 和 名字 猜 到 ， 


它 通 过 打破 地 址 分 类 之 间 的 严格 界限 来 做 到 这 一 点 。 为 了 理解 CIDR 如 何 工作 ， 我 们 假设 
某 组 织 有 16 个 C 类 网 络 号 。 我 们 可 以 分 配 一 块 连续 的 (contiguous) C 类 地 址 而 不 是 随机 
地 分 配 16 个 地 址 。 假 设 我 们 分 配 的 C 类 网 络 号 为 192. 4. 16 一 192. 4. 31。 可 以 看 出 ， 在 此 
范围 内 ， 所 有 地 址 的 高 20 位 是 一 样 的 (11000000000001000001)。 这 样 ， 我 们 就 有 效 建造 
了 一 个 20 位 的 网 络 号 ， 它 所 能 支持 的 主机 数 界 于 也 类 网 络 号 与 C 类 网 络 号 之 间 。 换 句 话 
说 ， 我 们 既得 到 以 小 于 B 类 网 络 的 块 分 配 地 址 的 高 效率 ， 又 得 到 可 在 转发 表 中 使 用 的 单个 
网 络 前 级 。 可 以 看 出 ， 要 让 此 方案 正常 工作 ， 我 们 需要 分 发 具有 相同 前 级 的 C 类 地 址 块 ， 
这 意味 着 每 块 都 必定 包含 数目 为 2 的 窜 次 方 的 C 类 网 络 。 

CIDR 需要 一 种 新 型 标注 或 者 用 已 知 的 前 级 (prefix) 来 表示 网 络 号 ， 因 为 前 级 可 以 任 
意 长 。 通 常 的 做 法 是 在 前 缀 后 放置 一 个 “/X”， 其 中 “X” 是 前 缀 的 位 长 度 。 所 以 ,在 前 
面 的 例子 里 ， 在 从 192.4.16~192.4.31 之 间 的 网 络 中 ，20 位 的 前 缀 可 以 表示 为 
192. 4. 16/20。 相 反 ， 如 果 需 要 表示 单个 C 类 网 络 号 ,因为 其 是 24 位 长 ， 所 以 记 作 
192. 4. 16/24。 当 前 ， 随 着 CIDR 成 为 规范 ， 可 以 昕 到 更 多 的 人 说 起 “/24” 前 缀 表示 的 C 
类 网 络 。 注 意 ， 按 这 种 方法 表示 网 络 地 址 类 似 于 划分 子 网 中 用 过 的 ‘mask，value，〉》(〈 掩 人 码 ， 
值 ;〉 方 法 ， 只 要 掩 码 是 由 从 最 高 位 开始 的 连续 位 组 成 即 可 (实际 上 这 类 问题 都 是 这 样 ) 。 

以 我 们 刚刚 给 出 的 这 种 方法 聚合 路 由 的 能 力 只 是 第 一 步 。 想 象 一 个 因特网 服务 提供 商 
网 络 ， 它 的 基本 任务 是 为 大 量 公 司 和 校园 〈 客 户 ) 提供 因特网 连接 。 如 果 我 们 按照 这 种 方 
法 来 给 公司 分 配 网 络 号 ， 即 所 有 连 在 此 网 络 上 的 不 同 公司 都 共享 一 个 公共 地 址 前 级 ， 那 么 
我 们 能 得 到 更 大 程度 上 的 路 由 聚合 。 考 虑 图 3-22 所 示 的 例子 ， 提 供 商 网 络 服务 的 8 个 客 
户 被 分 配 相 邻 的 24 位 网 络 前 经， 该 前 缀 的 前 21 位 是 相同 的 。 由 于 所 有 客户 均 可 经 同一 个 
提供 商 网 络 到 达 ， 因 此 可 以 通过 通知 它们 共享 的 公用 21 位 前 缀 来 向 它们 通知 一 条 路 由 。 
即使 没有 分 配 全 部 24 位 前 缀 也 可 以 采用 这 种 通知 方式 ， 只 要 提供 商 最 终 能 够 为 客户 分 配 
”那些 前 级 。 做 到 这 一 点 的 一 种 方法 是 提前 给 提供 商 网 络 分 配 一 部 分 地 址 空间 ， 然 后 让 网 络 
提供 商 从 此 空间 中 给 它 的 用 户 按 需 分 配 地 址 。 注 意 ， 与 这 个 简单 的 例子 不 同 的 是 ， 没 有 必 
要 使 所 有 用 户 前 级 都 具有 相同 的 长 度 。 


通知 
128.112.128/21 


客户 








图 3-22 用 CIDR 进行 路 由 聚合 


2. IP 转发 再 讨论 | 
至 此 ， 在 IP 转发 讨论 中 ， 我 们 假设 能 够 找到 一 个 分 组 中 的 网 络 号 ， 然 后 在 转发 表 中 
查找 该 网 络 号 。 然 而 ,现在 我 们 引入 了 CIDR， 因 此 需要 重新 考虑 这 个 假设 。CIDR 意味 
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着 前 缀 可 以 是 2~32 位 的 任意 长 度 。 而 且 ， 有 时 转发 表 中 的 前 缀 也 可 能 重 看 ， 也 就 是 说 ， 
某 个 地 址 可 能 与 不 止 一 个 前 缀 匹配 。 例 如 ， 在 一 台 路 由 器 的 转发 表 中 我 们 可 以 找到 171. 69 
(一 个 16 位 的 前 级) 和 171. 69. 10 (一 个 24 位 的 前 级)。 在 这 种 情况 下 ,一 个 目标 为 
171. 69. 10. 5 的 分 组 显然 与 两 个 前 缀 都 匹配 。 处 理 这 种 情况 的 规则 基于 “最 长 匹配 ” 原 
则 ， 就 是 说 , 分 组 与 最 长 的 前 缀 匹配 ， 此 例 中 是 171. 69. 10。 另 一 方面 ， 一 个 目标 是 
171. 69. 20. 5 的 分 组 将 匹配 171. 69 而 不 是 171. 69. 10， 如 果 与 路 由 表 中 其 他 记录 都 不 匹 
配 ， 那 么 171. 69 将 是 最 长 的 匹配 。 

在 一 个 IP 地 址 和 转发 表 中 的 可 变 长 前 缀 之 间 有 效 地 寻找 最 长 匹配 的 任务 ， 近 些 年 已 
经 成 为 了 一 个 富有 成 效 的 研究 领域 ， 本 章 的 “扩展 阅读 ”中 给 出 了 一 些 参考 资料 。 最 著名 
的 算法 使 用 了 一 种 叫 作 PATRICIA 树 的 方法 ， 实 际 上 它 比 CIDR 得 到 了 更 好 的 研究 。 


3.2.6 ”地 址 转换 (ARP) 


上 一 节 我 们 讨论 了 如 何 使 卫 数据 报到 达 正 确 的 物理 网 络 ， 但 是 掩饰 了 数据 报 如 何 到 
达 该 网 络 上 某 一 特定 主机 或 路 由 器 的 问题 。 主 要 的 问题 是 IP 数据 报 包含 IP 地 址 ， 但 是 你 
想 要 将 数据 报 传送 到 的 主机 或 路 由 器 上 的 物理 接口 硬件 只 理解 特定 网 络 的 编 址 方案 。 这 
样 ， 我 们 就 需要 将 IP 地 址 转换 为 这 个 网 络 所 能 理解 的 链 路 层 地 址 (如 一 个 48 位 的 以 太 网 
地 址 )。 然 后 ， 我们 可 以 把 数据 报 封装 到 包含 该 链 路 层 地 址 的 帧 中 ， 并 发 往 最 终日 的 地 或 
发 往 一 台 可 将 数据 报 传 癌 最 终 目 的 地 的 路 由 兹 。 

将 IP 地 址 映射 为 物理 网 络 地 址 的 一 个 简单 的 方法 是 将 主机 的 物理 地 址 编码 在 IP 地 址 
的 主机 部 分 中 。 例 如 ， 一 台 主 机 的 物理 地 址 是 00100001 01001001 (前 一 个 字 节 是 十 进 制 
数 33， 后 一 个 字 节 是 十 进 制 数 81)， 它 的 IP 地 址 是 128. 96. 33. 81。 尽 管 这 种 解决 办 法 已 
在 一 些 网 络 中 使 用 ， 但 它 仅 限于 那些 网 络 物理 地 址 不 超过 16 位 长 的 情况 。 在 C 类 网 络 中 ， 
物理 地 址 只 有 8 位 长 。 显 然 ， 这 种 方法 不 适用 于 48 位 长 的 以 太 网 地 址 。 

一 个 更 普遍 的 解决 方案 是 为 每 台 主 机 保留 一 张 地 址 对 照 表 ， 也 就 是 说 ， 该 表 将 IP 地 
址 映射 为 物理 地 址 。 虽 然 这 个 表 可 以 由 系统 管理 员 集 中 管理 并 复制 到 网 络 中 的 各 个 主机 
上 ， 但 更 好 的 方法 是 让 每 台 主 机 通过 网 络 动态 地 得 到 表 的 内 容 。 这 种 方法 可 以 用 地 址 解析 
协议 (Address Resolution Protocol, ARP) 来 实现 。ARP 的 目标 是 使 网 络 上 的 每 台 主 机 
都 建立 一 张 IP 地 址 和 链 路 层 地 址 间 的 映射 表 。 由 于 这 些 上 映射 可 能 会 随时 间 而 改变 (例如 ， 
由 于 一 台 主 机 的 以 太 网 卡 出 现 故 障 ， 而 被 另 一 个 有 新 地 址 的 卡 蔡 换 掉 )， 所 以 表 中 的 条 目 
周期 性 地 超时 并 被 删除 。 这 种 情况 每 15 分 钟 发 生 一 次 。 当 前 存储 在 主机 上 的 映射 集合 称 
为 ARP 高 速 缓存 或 ARP K. 

ARP 充分 利用 很 多 链 路 层 网 络 技术 〈 如 以 太 网 ) 都 支持 广播 这 一 优点 。 如 果 一 台 主 
机 要 发 送 一 个 数据 报 给 已 知 为 同一 网 络 内 的 另 一 台 主 机 (或 路 由 器 ) 〈 即 发 送 和 接收 节点 
有 同样 的 网 络 号 )， 那 么 它 首 先 检 查 缓 存 中 的 映射 。 如 果 了 映射 不 存在 ， 它 束 需 要 调用 网 络 
上 的 地 址 解析 协议 。 该 调用 是 通过 问 网 络 广播 一 个 ARP 查询 来 实现 的 ， 查 询 中 包含 询问 
的 IP 地址 (目标 IP 地址 )。 每 台 主 机 接收 到 这 个 查询 并 检查 是 否 与 自己 的 IP 地 址 匹配 。 
如 果 匹 配 ， 该 主机 发 送 一 个 包含 它 的 链 路 层 地 址 的 应 答 信 息 给 发 出 查询 的 源 主 机 。 源 主机 
将 此 应 答 中 包含 的 信息 添加 到 它 的 ARP 表 中 。 | 

查询 信息 也 包含 发 送 主机 的 IP 地 址 和 链 路 层 地 址 。 这 样 ， 当 一 台 主 机 广播 一 条 查询 
言 息 时 ， 网 络 上 每 台 主 机 都 会 知道 发 送 方 的 链 路 层 地 址 和 IIP 地址， 并 将 此 信息 放 入 自己 
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的 ARP 表 中 。 然 而 ， 并 不 是 每 台 主 机 都 把 这 一 信息 添加 到 ARP 表 中 。 如 采 某 一 主机 的 表 
中 已 经 有 了 这 台 发 送 主机 的 条 目 ， 那 么 它 将 “刷新 ”这 一 条 目 ， 即 重新 设置 时 间 长 度 直至 
丢弃 这 一 条 目 。 如 果 某 主机 是 查询 的 目标 ， 那么 即使 其 表 中 没有 发 送 主机 的 条 目 ， 它 也 把 
有 关 发 送 方 的 信息 添加 到 自己 的 表 中 。 这 样 做 的 原因 是 ， 源 主机 可 能 要 问 它 发 送 一 个 应 用 
级 消息 ， 并 且 它 最 终 必 须发 一 个 应 答 或 ACK 给 源 主机 ， 而 这 需要 源 主机 的 物理 地 址 。 如 
果 某 主机 不 是 目标 主机 ， TRER ARP 表 中 没有 源 主机 的 条 目 ， 那 么 它 就 不 会 将 源 主机 
的 条 目 加 入 到 自己 的 ARP 表 中 。 这 是 因为 这 台 主 机 不 需要 源 主 机 的 链 路 层 地 址 ， 没 有 必 
要 在 ARP 表 中 保存 这 条 信息 。 | 
图 3-23 给 出 了 从 IP 地 址 到 以 太 网 地 址 映射 的 ARP 分 组 格式 。 事 实 上 ，ARP 可 以 用 
于 其 他 多 种 映射 ， 主 要 区 别 在 于 地 址 长 度 。 除 了 发 送 方 和 目标 方 的 IP 和 链 路 层 地 址 外 ， 
分 组 还 包括 : 
。 一 个 HardwareType (硬件 类 型 ) 字段 ， 说 明 物 理 网 络 的 类 型 (如 以 太 网 )。 
o 一 个 ProtocolType 〈 协 议 类 型 ) 字段 ， 说 明 高 层 协议 〈 如 IP). 
。 HLen (“硬件 ”地 址 长 度 ) 和 PLen (“ 协 议 ” 地 址 长 度 ) 字段 ， 分 别 说 明 链 路 层 
地 址 和 高 层 协议 地 址 的 长 度 。 
。 一 个 Operation (操作 〉 字段 ， 说 明 是 请 求 还 是 应 答 
。 源 人 硬件 和 目标 人 硬件 (以 太 网 ) 地 址 和 协议 CIP) 地 址 。 





ae a nl 
l ”硬件 类 型 -1 | 协议 类 型 -0x0800 
| 硬 作 地 直 长 度 =48 协议 地 址 长 度 = =32 操作 
ee en 
z= ice aac a 


源 协议 地 址 (2 ~ 3 字 节 ) 
目标 硬件 地 址 (2 ~ 5 字 节 ) 
| 目标 协议 地 址 (0 ~ 3 字 节 ) 
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图 3-23 用 于 将 IP 地 址 和 以 太 网 地 址 进行 映射 的 ARP 分 组 格式 


注意 ，ARP #2 果 可 以 加 在 如 表 4 1 所 示 的 转发 表 中 成 为 额外 的 一 列 。 这 样 ， 例 
如 ， 当 R2 需要 转发 一 个 分 组 到 网 络 2 时 ， 它 不 仅 能 找到 下 一 跳 是 R1， 而 且 能 找到 MAC 
地 址 ， 将 其 加 在 分 组 上 并 发 往 R1。 | 

结论 ”我 们 现在 已 经 看 到 IP 提供 的 处 理 异 构 性 和 可 扩展 性 的 基本 机 制 。 对 于 异 

HERA, P 首先 定义 一 个 尽力 服务 模型 ， 对 底层 网 络 做 最 少 的 假设 。 更 值得 

注意 的 是 ， 这 个 服务 模型 基于 不 可 靠 的 数据 报 。 然 后 ，IP 做 两 件 重要 的 事情 

提供 一 个 公共 的 分 组 格式 (分 段 和 重组 是 使 这 个 格式 适应 不 同 MTU 网 络 的 机 

Hl); 提供 识别 所 有 主机 的 全 局 地 址 空间 (ARP 是 使 全 局 地 址 空间 在 具有 不 同 物 

理 地 址 编 址 方案 的 网 络 上 运行 的 机 制 )。 对 于 可 扩展 性 问题 ，IP 使 用 层次 化 的 聚 

合 ， 减 少 转发 分 组 所 需 的 信息 量 。 特 别 是 ， IP 地 址 被 划分 为 网 络 ome 

首先 选择 路 由 将 分 组 发 送 到 目的 网 络 ， 然 后 再 将 分 组 传送 给 这 个 网 络 ewe 

主机 。 
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3.2.7 主机 配置 (DHOP) 


在 2.6 节 我 们 已 经 看 到 ， 以 太 网 地 址 由 制造 商 配 置 到 网 络 适配器 中 ， 这 样 管理 是 为 了 
保证 这 些 地 址 是 全 球 唯一 的 。 显 然 ， 这 是 保证 连接 到 一 个 以 太 网 (包括 扩展 的 LAN) 的 
任意 主机 集合 有 唯一 地 址 的 充分 条 件 。 而 且 ， 唯 一 性 是 我 们 对 以 太 网 地 址 的 全 部 要 求 。 

与 之 相 比 ，IP 地 址 在 一 个 给 定 的 互联 网 中 不 仅 必须 是 唯一 的 ， 而 且 必 须 反映 互联 网 
的 结构 。 如 上 所 述 ， 它 们 包括 网 络 部 分 和 主机 部 分 ， 且 对 于 在 同一 个 网 络 中 的 所 有 主机 来 
说 ， 网 络 部 分 必须 相同 。 这 样 ，IP 地 址 不 可 能 在 主机 制造 时 就 一 次 配置 好 ， 因 为 那 将 意 
味 着 制造 商 知 道 哪 台 主 机 将 要 连 到 哪个 网 络 ， 并 且 意 味 着 一 旦 主机 连接 到 某 个 网 络 ， 就 再 
也 不 能 移动 至 另 一 个 网 络 上 。 因 此 ，IP 地 址 必须 是 可 重新 配置 的 。 

除了 IP 地 址 之 外 ， 主 机 在 开始 发 送 分 组 之 前 还 需要 知道 一 些 其 他 信息 。 其 中 最 值得 
注意 的 是 默认 路 由 器 的 地 址 ， 即 当 分 组 的 目的 地 址 和 发 送 主 机 不 在 同一 网 络 时 ， 主 机 能 将 
分 组 发 送 到 的 地 方 。 

大 多 数 主机 操作 系统 为 系统 管理 员 或 用 户 提供 一 种 方法 ， 以 手工 方式 配置 主机 所 需 的 
IP 信息 。 然 而 ， 这 样 的 人 工 配 置 有 一 些 明 显 缺 点 。 首 先 ， 在 一 个 大 型 网 络 中 直接 配置 所 
有 主机 工作 量 很 大 ， 尤 其 是 当 你 意识 到 主机 只 有 进行 配置 之 后 才能 通过 网 络 可 达 时 。 更 重 
要 的 是 ， 配 置 过 程 非常 容易 出 错 ， 因 为 它 需 要 确保 每 台 主机 得 到 正确 的 网 络 号 ， 并且 任 何 

台 主机 不 能 有 同样 的 IP 地 址 。 因 此 需要 有 自动 配置 方法 ， 主 要 方法 是 使 用 动态 主机 配 
置 协议 (Dynamic Host Configuration Protocol ， DHCP) 。 

DHCP 依赖 于 DHCP 服务 器 ，DHCP 服务 器 负责 向 主机 提供 配置 信息 。 一 个 管理 域 
中 至 少 有 一 个 DHCP 服务 器 。 在 最 简单 的 分 层 结构 中 ，DHCP 服务 器 的 功能 就 像 一 个 主 
机 配置 信息 的 中 心 库 。 例 如 ， 考 虑 在 一 个 大 公司 的 互联 网 中 管理 地 址 的 问题 。DHCP 可 以 
使 网 络 管理 员 不 必 拿 着 一 张 地 址 清单 和 网 络 图 走 遍 公 司 的 每 一 台 主 机 以 手工 方式 配置 它 
们 。 相 反 ， 每 台 主 机 的 配置 信息 可 以 存储 在 DHCP 服务 器 中 ， 并 当主 机 自 举 或 与 网 络 连 
接 后 ， 由 每 台 主 机 自动 获得 。 然 而 ， 管 理 员 仍 需 选 取 每 台 主 机 接收 的 地 址 并 将 其 存 到 服务 
”器 中 。 在 这 个 模型 中 ， 每 台 主 机 的 配置 信息 存储 在 一 张 表 中 ， 此 表 以 某 种 形式 的 唯一 客户 
标识 作为 索引 ， 通 常 是 硬件 地 址 〈 如 它 的 网 络 适配器 的 以 太 网 地 址 ) 。 

一 种 更 成 熟 的 DHCP 用 法 使 网 络 管理 员 不 必 为 单个 的 主机 分 配 地 址 。 在 这 个 模型 中 ， 
DHCP 服务 器 维护 着 一 个 由 它 按 需 分 配给 主机 的 可 用 地 址 的 缓冲 区 。 由 于 现在 只 需要 给 每 
个 网 络 分 配 IP 地 址 的 范围 (全 部 有 相同 的 网 络 号 )， 因 此 在 很 大 程度 上 减少 了 管理 员 所 必 
须 做 的 配置 数量 。 

由 于 DHCP 的 目标 是 使 一 台 主 机 正常 工作 所 需 的 人 工 配置 量 减 至 最 小 ， 如 果 每 台 主 
机 都 必须 配置 一 个 DHCP 服务 器 地 址 的 话 ， 就 达 不 到 这 个 目的 。 因 此 ，DHCP 首先 面临 
的 就 是 找到 服务 器 的 问题 。 

为 了 与 一 个 DHCP 服务 器 相连 ， 一 台新 自 举 或 新 连接 的 主机 发 送 一 条 DHCPDIS- 
COVER 消息 到 一 个 特殊 的 IP 地 址 (255. 255. 255. 255) 一 一 广播 地 址 。 这 意味 着 此 条 消 
息 将 被 网 络 上 的 所 有 主机 和 路 由 器 接收 。 (路 由 器 不 转发 这 样 的 分 组 到 其 他 网 络 ， 以 防止 
广播 到 整个 因特网 .) 在 最 简单 的 情况 下 ， 这 些 节点 中 的 某 一 个 就 是 网 络 的 DHCP 服务 
器 。 然 后 该 服务 器 应 答 产生 这 条 发 现 消息 的 主机 (所 有 其 他 的 节点 将 忽略 这 条 消息 )。 然 
而 ， 并 不 是 每 个 网 络 都 需要 一 个 DHCP 服务 器 ， 因 为 这 会 潜在 增加 大 量 需 要 正确 并 一 致 
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配置 的 服务 器 。 因 此 ， DHCP 使 用 中 继 代 理 (relay agent) 的 概念 。 每 个 网 络 上 至 少 有 一 
个 中 继 代 理 ， 它 只 配置 有 一 条 信息 : DHCP 服务 器 的 IP 地 址 。 当 中 继 代理 接收 到 DHCP- 
DISCOVER 消息 时 ， 它 将 这 条 消息 单 播 到 DHCP 服务 器 并 等 待 响 应 ， 然 后 将 啊 应 回 传 给 
发 出 请 求 的 客户 机 。 从 一 台 主 机 中 继 一 条 消息 到 一 个 远程 DHCP 服务 器 的 过 程 如 图 3- 24 
所 示 。 

图 3-25 给 出 了 DHCP 消息 的 格式 。 这 条 消息 实际 上 是 使 用 运行 在 IP 之 上 的 UDP 协 
W (用户 数 据 报 协议 ) 来 发 送 的 。 下 一 章 将 讨论 UDP 的 细节 ， 这 里 ， 它 所 做 的 仅 是 提供 
一 个 多 路 分 解 键 ， 表 明 “这 是 一 个 DHCP 分 组 ”。 
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| : 文件 ia 128 字 节 a 
图 3-24 一 个 DHCP 中 继 代理 从 一 台 主 机 收 到 人 aeons = on ee ae a 
一 条 广播 DHCPDISCOVER 消息 并 且 发 送 E 
一 个 单 播 DHCPDISCOVER 给 DHCP 服务 器 图 3-25 DHCP 分 组 格式 


DHCP 协议 起 源 于 较 早 的 BOOTP 的 协议 ， 因 此 分 组 中 的 一 些 字 段 并 不 与 主机 配置 严 
格 相 关 。 当 客户 端 试 图 得 到 配置 信息 时 ， 它 把 其 硬件 地 址 (如 以 太 网 地 址 ) 放 到 chaddr 
CE P in he APE) 字段 中 。DHCP 服务 器 填充 yiaddr (“你 的 ”IP 地 址 ) 字段 并 发 送 给 客 
户 端 作为 回答 。 客户 端 使 用 的 其 他 信息 E QRUB Aas) 包含 在 options (选项 ) F 
Be FP 

显然 ,在 DACP 为 主机 动态 分 配 IP 地 址 的 情况 下 ， 主 机 不 能 无 限期 地 保留 地 址 ， 因 
为 这 样 将 导致 服务 器 最 终 耗 尽 其 地 址 空 间 。 同 时 ， 不 能 依靠 主机 归还 其 地 址 ， 因 为 它 可 能 
BAHH. KAMERAH. A, DHCP 允许 地 址 在 一 段 时 间 内 被 租用 。 一 旦 租用 期 
满 ， 服 务 器 就 将 地 址 回收 。 一 个 租用 地 址 的 主机 ， 如 果 仍 连 在 网 络 上 且 功 能 正常 ， 显 然 需 
要 定期 重新 租用 地 址 。 

结论 | 网 络 管理 的 可 扩展 性 。 可 扩展 性 

的 讨论 通常 集中 在 使 网 络 各 设备 不 要 增长 得 太 快 这 一 点 上 ， 而 关注 网 络 管理 复杂 性 

ponies 通过 允许 网 络 管 理 员 给 每 个 网 络 配 置 一 个 IP 地 址 范围 ， 而 

不 必 为 每 台 主 机 配置 一 个 IP 地 址 ，DHCP 改进 了 网 络 的 可 管理 性 。 

Y=, DHCP E DEREI M 因为 它 使 物理 主机 和 IP 地 址 之 间 
的 绑 定 更 为 动态 化 。 这 使 得 网 络 管理 员 的 工作 更 加 困难 ， 例 如 ， 有 必要 定位 一 台 出 现 故障 
的 主机 。 
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3.2.8 差错 报告 (ICMP) 


下 一 个 问题 是 因特网 如 何 处 理 差错 。 当 IP 在 数据 报 传送 受阻 而 要 将 其 丢弃 时 ， 例如， 
当 路 由 器 不 知 如 何 转发 数据 报 或 数据 报 的 一 个 分 片 没 有 到 达 目 的 地 时 ， 它 不 能 默默 地 归于 
失败 。 卫 总 是 和 网 际 控制 报 文 协议 (Internet Control Message Protocol, ICMP) 配置 在 
一 起 ， 这 个 协议 定义 了 当 一 台 路 由 器 或 主机 不 能 成 功 处 理 一 个 IP 数据 报时 ， 向 源 主机 发 
回 的 错误 消息 的 集合 。 例 如 ，ICMP 定义 了 目的 主机 不 可 达 (可 能 是 链 路 差错 )、 重 组 进 
程 失 败 、TTL 为 0、IP 首部 校 验 和 出 错 等 差错 消息 。 

ICMP 也 定义 了 路 由 器 可 发 回 源 主机 的 少量 控制 信息 。 最 有 用 的 一 种 控制 信息 叫 作 
ICMP 重 定向 (ICMP-Redirect)， 它 告知 源 主机 有 一 条 更 好 的 到 达 目 标的 路 由 。ICMP E 
定 问 用 于 以 下 情况。 假设 一 台 主 机 连接 到 一 个 连 有 两 台 路 由 器 R 和 R2 的 网 络 ， 主 机 使 
用 R1 作为 软 认 路 由 器 。 寿 R1 接 到 一 个 来 自主 机 的 数据 报 ， 而 它 根据 转发 表 得 知 ， 对 于 
某 一 特定 目的 地 址 来 说 R2 会 是 更 好 的 选择 ， 于 是 它 发 回 一 个 ICMP 重 定向 给 主机 ， 指 示 
主机 对 其 余 以 该 地 址 为 目的 地 的 数据 报 使 用 R2。 然 后 ， 主 机 将 这 个 新 路 由 加 到 转发 表 中 。 

ICMP 还 为 两 个 广泛 使 用 的 调试 工具 ping 和 traceroute 提供 了 基础 。ping 使 用 ICMP 
回应 消息 来 判断 一 个 节点 是 否 可 达 且 正在 运行 。traceroute 使 用 一 种 不 太 直接 的 技术 来 判 
斯 到 目的 节点 的 路 径 上 的 路 由 器 集合 ， 在 本 章 最 后 的 习题 中 有 一 道 相 关 的 习题 。 
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我 们 通过 考虑 一 个 也 许 你 尚未 预见 但 变 得 越 来 越 重要 的 问题 来 结束 对 IP 的 介绍 。 至 
此 ， 我 们 讨论 的 焦点 是 使 不 同 网 络 上 的 节点 能 够 以 一 种 不 受 限 制 的 方式 进行 通信 。 这 通常 
是 因特网 的 目标 一 一 人 人 都 希望 能 将 电子 邮件 发 给 任何 人 ， 一 个 新 网 站 的 创建 者 希望 能 有 
尽 可 能 多 的 访问 者 。 然 而 ， 更 多 的 情况 下 需要 更 可 控 的 连接 。 这 种 情况 的 一 个 重要 例子 就 
”是 虚拟 专用 网 (Virtual Private network, VPN). 

术语 VPN 被 大 量 地 重复 使 用 ， 并 有 各 种 各 样 的 定义 ， 但 是 ， 我 们 通过 考查 专用 网 的 
基本 思想 来 直观 地 定义 VPN。 拥 有 很 多 站 点 的 公司 经 常 通过 从 电话 公司 租用 传输 线路 将 
网 站 互联 起 来 建造 专用 网 。 在 这 样 的 网 络 中 ， 通 常 出 于 安全 性 的 考虑 ， 通 信 被 严格 限制 在 
本 公司 的 网 站 间 进 行 。 为 使 专用 网 成 为 虚拟 的 〈virtual) ， 对 于 那些 不 与 其 他 任何 公司 共 
享 的 租用 传输 线路 ， 可 用 某 种 共享 网 络 代替 。 一 条 虚 电 路 (VOC) 是 非常 合适 的 租用 线路 
替代 品 ， 因 为 它 仍 在 公司 的 站 点 间 提 供 逻 辑 的 点 到 点 连接 。 例 如 ， 如 果 公 司 X 有 一 条 从 站 
点 A 到 站 点 B 的 VC， 那 么 显然 它 能 够 在 A 和 B 之 间 发 送 分 组 .但 是 公司 Y 如 果 不 事先 
建立 它 自己 到 站 点 B 的 虚 电 路 ， 就 不 能 将 分 组 发 送 到 B， 而 在 管理 上 可 禁止 建立 这 样 的 
VC 以 防 出 现 公司 X 和 公司 Y 之 间 不 希望 的 连接 。 

图 3-26a 给 出 了 两 个 不 同 公 司 的 专用 网 。 在 图 3-26b 中 ， 它 们 都 移植 到 一 个 虚 电路 网 
络 中 。 真 正 的 专用 网 中 保持 着 有 限 的 连接 ， 但 是 由 于 专用 网 现在 共享 相同 的 传输 设备 和 交 
换 机 ， 因 此 我 们 说 建立 了 两 个 虚拟 专用 网 。 | 
在 图 3-26 中 ， 使 用 帧 中 继 或 ATM 网 络 来 提供 站 点 之 间 的 受 控 连接 。 使 用 IP 网 络 
一 一 互联 网 一 一 也 可 以 提供 类 似 功能 的 连接 。 然 而 ， 我 们 不 能 将 不 同 公司 的 网 站 连 到 一 个 
单一 互联 网 上 ， 因 为 那样 将 提供 公司 X 与 公司 Y 之 间 的 连接 ， 而 这 种 连接 是 我 们 希望 避 
免 的 。 为 解决 这 个 问题 ， 我 们 需要 引入 一 个 新 的 概念 一 一 IP 隧道 (IP tunnel), 
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物理 链 路 





虚 电 路 


Y 公 司 专用 网 | 7 | 
a) 两 个 分 离 的 专用 网 b 两 个 虚拟 专用 网 共享 一 台 交换 机 
图 3-26 ”虚拟 专用 网 络 的 例子 


我 们 可 以 把 IP 隧道 想象 成 一 对 节点 间 的 一 条 虚拟 的 点 到 点 链 路 ， 这 对 节点 之 间 事 实 
上 可 相隔 任意 多 个 网 络 。 通 过 将 隧道 远 端 路 由 器 的 IP 地 址 提供 给 虚 链 路 ， 就 可 以 在 隧道 
入 口 处 的 路 由 器 之 间 创 建 虚 链 路 。 无 论 何 时 当 隧 道人 口 处 的 路 由 器 想 要 通过 这 个 虚 链 路 发 
送 一 个 分 组 时 ， 它 就 把 分 组 封装 在 一 个 IP 数据 报 中 。IP 首部 中 的 目的 地 址 是 隧道 远 端的 
路 由 器 地 址 ， Re 

在 隧道 人 口 路 由 器 的 转发 表 中 ， 这 条 虚 链 路 更 像 一 条 普通 的 链 路 。 例 如 ， 考 虑 图 3-27 
中 的 网 络 。 seta ee R1 到 R2 的 隧道 ， 并 设置 虚拟 接口 号 为 0。R1l 的 转 
发 表 如 表 3-8 所 示 。 





网 络 1 网 络 2 
Dp a eee 
| “IP 首 部 ， | IPER, | “IP 首部 ， 

目标 ==2.x | 目标 =18.5.0.1 | | ”目标 =2.x 
| pe ee tee i IP 首部 pose pees eae msonara reann eaaa easter toes 7 eeen ET 六 ep et ee ee pe ee em ene, k 
| re 和 IP HP » | | EN 
| IP 有 效 载荷 | 目标 =2x | | IPAR | 
IPART 


Err omu teni reed mtn Pend Pon Paa t ta rnd Pad Ones PAAS Pandata I mnd Pen had Pang Pat ne Ped Poe 


图 3-27 RLKN NBE. 18. 5. 0. 1 是 R2 能 够 通过 互联 网 到 达 RI 的 地 址 


R1 有 两 个 物理 接口 。 接 口 0 连接 网 络 1; 接 表 3-8 图 3-27 中 路 由 器 R1 的 转发 表 


O 1 连接 一 个 大 型 互联 网 ， 并 且 是 转发 表 中 所 有 _ 网 络 号 Bk 
未 确切 说 明 的 通信 量 的 默认 接口 。 另 外 ，R1 有 一 0 
个 虚拟 接口 ， 即 到 隧道 的 接口 。 假 设 RI 从 网 络 1 


ee 转发 表 认 为 
个 分 组 应 从 虚拟 接口 0 发 出 。 为 了 从 此 接口 发 出 分 组 ， 路 由 器 接收 这 个 上 分 组 ， 加 上 一 个 
ee 然后 就 像 刚 刚 接收 到 它 一 样 继续 转发 这 个 分 组 。R2 的 地 址 是 
18. 5.0.1， 由 于 这 个 地 址 的 网 络 号 是 18， 不 是 1 或 2， 因 此 目标 是 R2 的 分 组 将 从 默认 接 

口 转发 到 互联 网 。 
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一 旦 分 组 离开 了 R1， 它 就 像 一 个 目标 是 R2 的 普通 IP 分 组 一 样 被 处 理 和 转发 。 互 联 
网 中 的 所 有 路 由 器 使 用 正常 的 方式 来 转发 这 个 分 组 ， 直 到 它 到 达 R2。 当 R2 接收 到 这 个 分 
组 时 ， 发 现 它 携带 着 自己 的 地 址 ， 因 此 将 IP 首部 删除 ， 并 查看 分 组 的 有 效 载 荷 。 它 找到 
的 是 一 个 内 部 IP 分 组 ,其 目的 地 址 在 网 络 2 中 。 现 在 ，R2 像 对 待 其 他 所 有 接收 到 的 IP 
分 组 一 样 处 理 这 个 分 组 。 由 于 R 直接 与 网 络 2 相连 ， 所 以 直接 将 该 分 组 转发 到 网 络 2， 
图 3-27 给 出 了 分 组 穿 过 网 络 时 分 组 封装 中 的 变化 。 | 

尽管 R2 充当 隧道 的 末端 点 ， 但 不 影响 它 执行 路 由 器 的 正常 功能 。 例 如 ， 它 可 以 接收 
非 隧道 的 分 组 ， 但 这 些 分 组 包含 它们 知道 如 何 到 达 的 网 络 的 地 址 ， 然 后 它 将 按照 正常 方式 
进行 转发 。 7 J 

也 许 你 想 知道 为 什么 人 们 如 此 麻烦 地 建造 一 条 隧道 并 且 在 分 组 穿 过 互联 网 时 改变 其 圭 
装 。 其 中 一 个 原因 是 安全 性 ， 我 们 将 在 第 8 章 详细 讨论 。 由 于 增加 了 加 密 ， 隧 道 可 以 变 成 
一 条 穿 过 公用 网 络 的 专用 链 路 。 另 一 个 原因 是 ，R1 和 R 有 一 些 其 他 参与 网 络 所 没有 的 能 
力 ， 如 多 播 路 由 。 通 过 将 这 些 路 由 器 与 障 道 相连 ， 我 们 可 以 建造 一 个 虚拟 的 网 络 ， 其 中 所 
有 有 这 种 能 力 的 路 由 器 都 好 像 直接 相连 一 样 。 这 事实 上 就 是 多 播 主 干 网 (MBone) 的 建造 
过 程 ， 我 们 将 在 4. 2 节 介绍 它 。 建 造 障 道 的 第 三 个 原因 是 传送 非 IP 协议 的 分 组 穿 过 IP 网 
络 。 只 要 隧道 两 端的 路 由 器 知道 如 何 处 理 其 他 协议 ，IP 隧道 对 它们 来 说 就 像 一 条 能 发 送 
JE PP 分 组 的 点 到 点 链 路 。 隧道 也 提供 这 样 一 种 机 制 ， 即 使 一 个 分 组 被 封装 在 隧道 首部 内 
的 原 首部 表明 它 应 传送 到 别处 ， 我 们 也 能 强制 把 它 传 送 到 一 个 特定 的 地 点 。 我 们 在 4. 4. 2 
节 考 虑 移动 主机 时 将 看 到 这 种 应 用 。 因 此 ， 可 以 看 出 隧道 是 建造 穿 过 互联 网 的 虚拟 链 路 的 
一 种 强 有 力 的 和 非常 普通 的 技术 。 | 

隧道 技术 也 有 缺点 。 第 一 ， 它 增加 了 分 组 长 度 ， 对 于 短 分 组 来 说 这 可 能 意味 着 对 带宽 
的 严重 浪费 。 其 次 ， 它 也 将 影响 隧道 两 端 路 由 器 的 性 能 ， 因 为 它们 将 做 一 些 超出 正常 转发 
的 工作 ， 如 添加 和 删除 隧道 首部 。 最 后 ， 它 还 会 增加 一 些 管理 实体 的 管理 开销 ， 这 些 实体 
负责 设置 隧道 并 确保 它们 能 被 路 由 协议 正确 处 理 。 
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Bi TET EY Ts AaB ER E BRL A A a RP T E The. PRUE TREN EAH 
选择 一 个 合适 的 输出 端口 。 在 虚 电 路 中 ， 路 由 仅 仪 是 连接 请 求 分 组 的 问题 ， 所 有 的 后 续 分 
组 都 与 连接 请 求 分 组 经 过 同样 的 路 径 。 在 数据 报 网 络 〈 包 括 IP 网 络 ) 中 ， 每 个 分 组 都 要 
进行 路 由 。 无 论 在 哪 种 情况 下 ， 交 换 机 或 路 由 器 都 需要 查看 分 组 的 目的 地 址 ， 然 后 决定 哪 
一 个 输出 端口 是 将 分 组 传送 到 那个 目的 地 址 的 最 好 选择 。 束 像 我 们 在 3. 1.1 市 中 看 到 的 ， 
交换 机 通过 查询 转发 表 来 做 这 个 决定 。 路 由 最 基本 的 问题 是 ， 交 换 机 和 路 由 天 如 何 获得 转 
发 表 中 的 信息 。 | l 

结论 ”我们 重申 转发 (forwarding) 和 路 由 (routing) 之 间 常 被 忽视 的 重要 区 

别 。 转 发 过 程 包括 :; 接收 一 个 分 组 ， 查 看 它 的 目的 地 址 ， 查 询 转 发 表 ， 按 表 中 决 

定 的 路 径 把 分 组 转发 出 去 。 我 们 已 经 在 前 面 一 节 见 过 几 个 转发 的 例子 。 路 由 是 用 

于 建立 转发 表 的 过 程 。 我 们 还 需 注意 ， 转 发 是 在 一 个 节点 上 本 地 执行 的 一 个 相对 

简单 、 定 义 良 好 的 过 程 ， 而 路 由 依赖 于 在 网 络 发 展 过 程 中 不 断 演 进 的 、 复 杂 的 分 

布 式 算法 ， 

虽然 转发 表 (forwarding table) 和 路 由 表 (routing table) 这 两 个 术语 有 时 会 交 蔡 使 
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用 ， 但 我 们 在 此 加 以 区 别 。 在 分 组 转发 时 使 用 转发 表 ， 因 此 转发 表 需 要 包含 足够 的 信息 来 
完成 转发 功能 。 这 就 意味 着 ， 转 发 表 中 的 一 行 包 括 从 网 络 号 到 发 出 接口 的 映射 和 一 些 
MAC 信息 ， 如 下 一 跳 的 以 太 网 地 址 。 另 一 方面 ， 路 由 表 作 为 建立 转发 表 的 前 奏 ， 是 由 路 
由 算法 建立 的 一 张 表 ， 它 通常 包含 从 网 络 号 到 下 一 跳 的 映射 。 此 外 ， 它 可 能 还 包含 如 何 得 
到 这 些 信 息 的 信息 ， 以 便 路 由 器 决定 何 时 丢弃 某 些 信息 。 
路 由 表 和 转发 表 是 否 是 实际 上 独立 的 数据 结构 与 实现 时 的 选择 有 关 ， 但 保持 它们 彼此 
的 独立 性 有 很 多 原因 。 例 如 ， 构 造 转发 表 是 为 优化 转发 分 组 时 查找 网 络 号 的 过 程 ， 而 优化 
路 由 表 是 为 了 计算 拓扑 结构 的 改变 。 有 时 ， 转 发 表 甚 至 可 以 由 茶 些 特殊 的 硬件 来 实现 ， 而 
路 由 表 很 少 这样 。 表 3-9 给 出 每 种 表 中 的 一 行 的 示例 。 在 这 种 情况 下 ， 路 由 表 告 诉 我 们 网 
络 前 级 18/8 是 通过 IP 地址 为 171. 69. 245. 10 的 下 一 跳 路 由 器 到 达 的 ， 而 转发 表 则 包含 如 
何 确切 转发 一 个 分 组 到 下 一 跳 的 信息 把 它 发 送 到 MAC 地 址 为 8: 0: 2b: e4: b: 1: 2 
的 接口 号 0。 注 意 最 后 一 条 信息 是 由 地 址 解析 协议 提供 的 。 
表 3-9 路 由 表 和 转发 表 一 行 的 示例 
SS 


在 了 解 路 由 的 细节 之 前 ， 需 要 回忆 一 下 ， 每 当 我 们 试图 为 因特网 建立 一 种 机 制 时 都 应 
间 的 一 个 关键 问题 ， 这 个 解决 方案 可 扩展 吗 ? 这 一 节 描 述 的 算法 和 协议 将 回答 : 不 能 。 它 
们 是 为 中 等 规模 〈 即 实际 少 于 100 个 节点 ) 的 网 络 设 计 的 。 然 而 ,我们 描述 的 解决 方案 的 
确 是 今天 因特网 使 用 的 层次 性 路 由 基础 结构 的 一 个 构件 。 特 别 地 ， 本 节 描 述 的 协议 统称 为 
域内 Cintradomain) 路 由 协议 ， 或 内 部 网 关 协 议 Cinterior gateway protocol, IGP), WS 
理解 这 些 术语 ， 我 们 需要 定义 路 由 域 (domain) ， 路 由 域 的 一 个 不 错 的 定义 就 是 一 个 互联 
网 ， 其 中 所 有 路 由 器 都 处 于 统一 管理 控制 之 下 例如， 一 所 大 学 的 校园 网 或 一 个 因特网 服 
务 提供 商 的 网 络 )。 定 义 之 间 的 相关 性 将 在 下 一 节 讨 论 域 间 (interdomain) 路 由 协议 时 变 
得 更 加 清楚 。 至 些 ， 需 要 记 住 的 一 件 重 要 的 事情 是 我 们 是 在 中 小 型 网 络 的 范围 内 考虑 路 由 
问题 ， 而 不 是 因特网 那么 大 的 网 络 。 


3.3.1 用 图 表示 网 络 


路 由 本 质 上 是 图 论 问题 。 图 3-28 给 出 一 个 表示 网 络 的 图 。 图 中 标 有 A~F 的 节点 可 以 
是 主机 、 交 换 机 、 路 由 器 或 网 络 。 在 开始 讨论 时 ， 我 们 专注 于 考虑 节点 都 是 路 由 器 的 情 
况 。 图 中 的 边 对 应 于 网 络 中 的 链 路 ， 每 条 边 都 有 一 个 相 
应 的 开销 (cost) ， 表 示 希 望 通过 这 段 链 路 发 送 的 通信 } 
量 。3. 3.4 节 将 讨论 如 何 赋予 边 上 的 开销 .9 

路 由 最 基本 的 问题 就 是 找 出 任意 两 个 节点 之 间 开 销 4A 
最 小 的 路 径 ， 一 条 路 径 的 开销 等 于 组 成 这 条 路 径 的 所 有 《Cc) 一 一 一 一 (Dp) 

边 上 的 开销 之 和 。 对 于 像 图 3-28 中 那样 的 简单 网 络 ， 你 图 3-28 用 图 表示 网 络 















O ”在 本 章 通 篇 采用 的 这 个 网 络 〈 图 ) 例子 里 ， 我 们 采用 无 向 边 并 为 每 条 边 分 配 一 个 开销 。 这 的 确 是 一 种 简化 。 
更 精确 的 方式 是 采用 有 向 边 ， 表 明 每 个 节点 间 都 有 一 对 边 ， 它 们 都 在 各 自 的 方向 上 且 有 自己 的 边 开 销 。 


可 以 想象 计算 出 所 有 的 最 短路 径 ， 并 将 它们 放 和 人 每 一 节点 的 某 个 非 易 失 性 存储 器 中 。 但 这 
种 静态 方法 有 以 下 几 个 缺点 ; 

。 它 不 处 理 节点 或 链 路 故障 。 

。 它 不 考虑 新 的 节点 或 链 路 的 增加 。 

。 它 意 味 着 边 的 开销 不 能 改变 ， 尽 管 我 们 可 能 有 理由 希望 给 一 条 重负 载 的 链 路 临时 、 

指定 一 个 高 开销 。 

由 于 这 些 原因 ， 在 大 多 数 实际 的 网 络 中 ， 路 由 由 运行 在 节点 间 的 路 由 协议 来 实现 。 这 
些 协 议 提供 了 一 种 分 布 式 的 、 动 态 的 方法 来 解决 在 链 路 和 节点 出 现 故障 时 寻找 最 小 开销 路 
径 以 及 改变 边 上 开销 的 问题 。 注 意 分 布 式 〈distributed) 这 个 词 ， 很 难 使 集中 式 解 决 方案 
成 为 可 扩展 的 ， 因此 所 有 被 广泛 使 用 的 路 由 协议 都 采用 分 布 式 算法 .9 

路 由 算法 的 分 布 式 特性 是 人 们 对 这 个 领域 i 
OO E ot ie 
同一 时 刻 ， 两 台 路 由 器 对 于 到 某 个 目的 地 的 最 短路 径 有 不 同 的 判断 。 事 实 上 ， 每 台 路 由 器 
可 能 会 认为 另 一 个 路 由 器 到 目标 更 近 些 ， 从 而 决定 将 分 组 发 往 另 一 台 路 由 器 。 显 然 ， 这 样 
的 分 组 将 会 陷 人 循环 ， 直 到 这 两 台 路 由 器 之 间 的 矛盾 得 以 解决 ， 而 且 越 早 解决 越 好 。 这 只 
是 路 由 协议 必须 解决 的 问题 中 的 一 个 例子 。 

在 开始 分 析 之 前 ， 我 们 假设 已 知 网 络 中 边 的 开销 。 下 面 我 们 将 研究 两 类 主要 的 路 由 协 
iM: 距离 向 量 (distance vector) 和 链 路 状态 Clink state), {E 3. 3.4 节 我 们 回 到 以 一 一 种 有 
针对 性 的 方式 计算 边 上 开销 的 问题 。 


A— 
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3.3.2 ”距离 向 量 (RIP) 


距离 向 量 算法 的 内 在 思想 正如 它 的 名 字 所 揭示 的 那样 8 ， 每 个 节点 构造 一 个 包含 到 所 
有 其 他 节点 “距离 ” (开销 〉 的 一 维 数组 〈 一 个 向 量 ) ， 并 将 这 个 向 量 分 发 给 它 的 邻接 点 。 
对 距离 向 量 路 由 所 作 的 初始 假设 是 每 个 节点 都 知道 到 其 直接 邻接 点 的 链 路 开销 ， 到 不 相 邻 
节点 的 链 路 开销 被 指定 为 无 穷 大 。 

要 明白 距离 癌 量 路 由 算法 如 何 工 作 ， 考 虑 如 
图 3-29 所 描述 的 例子 是 最 容易 的 。 在 这 个 例子 中 ， 
每 条 链 路 的 开销 设 为 1， 所 以 开销 最 小 的 路 径 就 是 
包含 跳 数 最 少 的 路 径 (因为 所 有 边 都 具有 相同 的 
开销 ， 我 们 在 图 中 没有 标 出 开销 ) 。 我 们 可 以 将 每 
个 节点 到 所 有 其 他 节点 的 距离 信息 表示 为 一 个 表 ， 
如 表 3-10 所 示 。 注 意 ， 每 个 节点 只 知道 表 中 一 行 
的 信息 〈 左 列 标 有 其 名 字 的 那 一 行 )。 网 络 中 任何 一 个 节点 都 不 能 使 用 这 里 给 出 的 网 络 全 
局 视图 。 | 
ee 行 视 作 一 个 节点 到 所 有 其 他 节点 的 距离 列表 ， 代 表 这 个 
节点 的 当前 判断 。 最 初 ， 节点 都 把 到 直接 邻接 点 的 开销 赋值 为 1， 到 所 有 其 他 节点 的 





图 3-29 ”距离 向 量 路 由 的 网 络 例子 


全 ”这 一 广泛 使 用 的 假设 近 些 年 得 到 了 再 次 检验 一 一 详 见 “扩展 阅读 ”部 分 。 
© 参见 “实验 六 ”。 
所 ”此 类 算法 的 一 个 通用 名 字 是 Bellman-Ford， 即 其 发 明 者 的 名 字 。 
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3-10 存储 在 每 个 节点 中 的 初始 距离 (全 局 视图 ) 


存储 在 节点 到 每 个 节点 的 距离 
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开销 赋值 为 无 穷 大 。 这 样 最初 A 点 知道 它 可 以 经 一 跳 到 达 B， 而 D 是 不 可 达 的 。 存 储 在 A 
中 的 路 由 表 反 映 了 这 样 的 信念 ， 并 且 包 括 A 用 来 到 达 其 他 任何 可 达 节 点 的 下 一 跳 的 和 名字。 
于 是 ， 最 初 A 的 路 由 表 如 表 3-11 Am. 

距离 向 量 路 由 的 下 一 步 是 每 个 节点 发 送 一 个 包含 自己 距离 表 的 消息 给 其 相 邻 节点 。 例 
如 ， 节 点 下 告诉 节点 A 它 可 以 到 节点 G， 开 销 为 1; A 也 知道 它 能 以 开销 1 到 达 F， 因 此 
二 者 相 加 就 可 以 得 到 经 下 到 G 的 开销 。 总 开销 2 小 于 当前 的 开销 无 穷 大 ， 因 此 A 记录 它 
可 经 下 到 达 G， 开 销 为 2。 类 似 地 ，A 从 C 得 知 ，C 能 以 开销 1 到 达 D; A 将 此 与 到 C 的 
开销 1 相 加 ， 决 定 可 通过 C 以 开销 2 到 达 D， 优 于 上 有 旧 的 开销 无 穷 大 。 同 时 ，A 从 C 得 知 ， 
C 能 以 开销 1 到 达 B， 因 此 它 推断 经 C 到 B 的 开销 为 2。 由 于 这 比 当前 A 到 B 的 开销 1 
大 ， 因 此 新 的 信息 被 忽略 。 
”至 此 ，A 能 够 更 新 路 由 表 中 所 有 网 络 节点 的 开销 和 下 一 跳 ， 结 果 如 表 3-12 所 示 。 





表 3-11 节点 A 的 初始 路 由 表 表 3-12 节点 A 的 最 终 路 由 表 
or TE amA = 
c : c : 
pf = = D C 
E = 6 F 


当 拓扑 结构 不 变 时 ， 每 个 节点 只 需 与 相 邻 节 点 之 间 交 换 少量 信息 即 可 得 到 完整 的 路 由 
表 。 得 到 所 有 节点 的 路 由 信息 的 过 程 叫 作 收 化 《〈convergence) 。 表 3-13 给 出 了 路 由 收敛 后 
从 每 个 节点 到 其 他 节点 的 一 组 最 终 开 销 。 我 们 必须 强调 ， 网 络 中 没有 任何 一 个 节点 有 这 张 
表 的 所 有 信息 ， 每 个 节点 只 知道 它 自己 的 路 由 表 的 内 容 。 像 这 样 的 分 布 式 算法 的 优点 就 是 
它 能 使 所 有 节点 在 没有 任何 集中 授权 的 情况 下 取得 对 网 络 的 一 致 视图 。 

表 3-13 存储 在 每 个 节点 的 最 终 距 离 (全 局 视图 ) 


存储 在 节点 到 每 个 节点 的 距离 
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在 结束 有 关 距 离 向 量 路 由 的 讨论 之 前 ， 还 要 插 进 一 些 细节 。 首 先 ， 我 们 注意 在 两 种 情 
况 下 ,一 个 给 定 的 节点 决定 发 送 路 由 更 新 消息 给 它 的 相 邻 节点 。 一 种 情况 是 定期 (period- 
ic) 更 新 。 在 这 种 情况 下 ， 即 使 没有 任何 变化 ， 每 个 节点 也 总 要 时 常 自动 发 送 更 新 消息 。 
这 使 其 他 节点 知道 它 仍 在 正常 运行 中 。 这 样 也 可 以 确保 当 现 有 路 由 不 可 用 时 ， 它 们 仍 能 一 
直 得 到 所 需 的 信息 。 这 些 定期 更 新 的 频率 随 协 议 的 不 同 而 不 同 ， 但 一 般 都 是 几 秒 到 几 分 钟 
进行 一 次 。 第 二 种 情况 有 时 称 为 触发 〈triggered) 更 新 ， 每 当 一 个 节点 通知 链 路 故障 或 从 
它 的 相 邻 节 点 接收 到 导致 路 由 表 中 路 由 发 生 改 变 的 更 新 时 ， 便 会 引发 这 种 更 新 。 也 就 是 
说 ， 当 一 个 节点 的 路 由 表 改 变 时 ， 它 就 给 其 相 邻 节点 发 送 一 条 更 新 消息 ， 这 可 能 引起 相 邻 
节点 的 路 由 表 改 变 ， 使 得 这 些 相 邻 节点 又 给 它们 的 相 邻 节点 发 送 更 新 消息 。 

现在 ， 我 们 考虑 一 下 当 链 路 或 节点 发 生 故 障 时 会 发 生 什 么 。 首 先 注意 到 这 个 问题 的 节 
点 发 送 新 的 距离 列表 给 它 的 相 邻 节点 ， 正 常情 况 下 ， 系 统 会 很 快 平静 地 达到 一 种 新 的 状 
态 。 至 于 一 个 节点 如 何 探查 故障 ， 有 两 种 不 同 的 答案 。 一 种 途径 是 ， 节 点 通过 发 送 控制 分 
组 持续 地 检测 到 另 一 节点 的 链 路 ， 并 查看 是 否 接收 到 确认 。 另 一 种 途径 是 ， 如 果 节 点 在 最 
近 几 次 更 新 周期 中 接收 不 到 预期 的 定期 更 新 ， 则 确定 该 链 路 〈 或 链 路 另 一 端的 节点 ) 发 生 
故障 。 

为 了 明白 当 一 个 节点 检测 到 一 条 链 路 故障 时 将 会 怎样 ， 我 们 来 看 当 节点 下 发 现 它 到 G 
的 链 路 发 生 故 障 时 的 情况 。 首 先 , 下 设置 到 G 的 新 距离 值 为 无 穷 大 ， 然 后 把 这 条 信息 传 给 
A。 由 于 A 知道 自己 到 G 的 2 跳 路 径 经 过 下 ， 所 以 A 也 把 它 到 G 的 距离 设 为 无 穷 大 。 但 
是 ， 从 C 送 来 的 下 一 次 更 新 中 ，A 将 得 知 C 有 一 个 2 跳 路 径 到 G。 这 样 ，A 就 知道 它 可 以 


经 过 C 以 3 跳 的 距离 到 达 G， 这 个 开销 小 于 无 穷 大 ， 所 以 A 相应 地 更 新 它 的 转发 表 。 当 A 


把 更 新 消息 通知 下 时 ,FF 即 知 可 以 经 过 A 以 开销 4 到 达 G， 这 个 开销 小 于 无 穷 大 ， 从 而 系 
统 将 重新 达到 稳定 。 | 

遗憾 的 是 ， 略 有 不 同 的 情况 就 可 能 阻碍 网 络 的 稳定 。 例 如 ， 假 设 从 A 到 下 的 链 路 出 
现 故 障 。 在 下 一 次 更 新 周期 中 ，A 通知 到 王 的 距离 为 无 穷 大 ,但 是 B 和 C 通 知 到 下 的 距 
离 为 2。 根据 事件 发 生 的 确切 时 序 ， 可 能 发 生 如 下 事件 : 节点 B 一 旦 知道 从 C 可 以 2 跳 的 
距离 到 达 玉 时 ， 就 断定 它 可 以 3 跳 到 达 下 ， 并 且 把 这 条 更 新 信息 通知 A; 节点 A 断定 它 能 
以 4 跳 到 达 正 ， 并 把 这 条 信息 通知 C; 节点 C 断定 它 能 以 5 跳 到 达 E; KEX, RAS 
距离 值 达到 一 个 足以 被 认为 是 无 穷 大 的 值 时 ， 循 环 才 会 停止 。 其 间 ， 没 有 一 个 节点 真正 知 
道 玉 是 不 可 达 的 ， 网 络 的 路 由 表 不 能 达到 稳定 。 这 种 情况 叫 作 计数 到 无 穷 (count-to-in- 
finity) 问题。 a | 

现 有 几 种 可 使 此 问题 得 到 部 分 解决 的 办 法 。 第 一 种 办 法 是 使 用 一 个 相对 较 小 的 数 作为 
无 穷 大 的 近似 值 。 例 如 ， 我 们 可 以 推断 穿 过 某 个 特定 网 络 的 最 大 跳 数 不 会 超过 16， 因 此 可 
以 选择 16 来 表示 无 穷 大 。 这 至 少 可 以 限制 计数 到 无 穷 大 所 花费 的 时 间 。 当 然 ， 如 果 我 们 
的 网 络 增长 到 某 些 节 点 的 距离 大 于 16 跳 时 ， 又 会 出 现 问题 。 | 

改进 稳定 路 由 时 间 的 一 种 技术 称 为 水 平分 割 (split horizon) 。 其 思想 是 当 一 个 节点 把 
路 由 的 更 新 消息 发 送 给 相 邻 节点 时 ， 它 并 不 把 从 各 个 相 邻 节点 处 学 到 的 路 由 再 回 送 给 该 市 
点 。 例 如 ， 如 果 节 点 B 在 其 表 中 有 路 由 信息 (E，2，A)， 那 么 它 就 知道 该 路 由 一 定 是 从 
节点 A 学 到 的 。 所 以 不 论 B 什么 时 候 给 A 发 送 更 新 消息 时 ， 其 中 都 不 包括 路 由 CE, 2). 
水 平分 割 的 一 种 增强 变形 称 为 带 反 向 抑制 的 水 平分 割 (split horizon with poison reverse). 
这 种 方法 中 B 确实 把 来 自 A 的 路 由 回 送 给 A， 但 在 该 路 由 中 加 入 否定 信息 来 确保 A 最 终 
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不 会 使 用 B 到 达 玉 。 例 如 ，B 把 路 由 E, œ) 发 送 给 A。 这 两 种 技术 的 问题 在 于 它们 只 
在 涉及 两 个 节点 的 路 由 循环 中 有 效 ， 对 于 更 大 的 路 由 循环 要 求 有 更 强 的 措施 。 继 续 以 上 的 
例子 ， 如 果 B 和 C 接收 到 A 的 链 路 故障 后 ， 在 把 路 由 通知 给 EE 之 前 等 待 一 段 时 间 ， 它 们 
就 会 发 现 ， 实 际 上 两 者 都 没有 到 达 E 的 路 由 。 不 幸 的 是 这 种 方法 延迟 了 协议 的 收 化 收敛- 
速度 是 它 的 竞争 对 手链 路 状态 路 由 (3. 3. 3 节 的 主要 内 容 ) 的 主要 优势 之 一 。 

1. 实现 

实现 这 个 算法 的 代码 非常 简单 ， 在 这 里 我 们 只 给 出 了 最 基本 的 一 些 代 码 。 结 构 Route 
定义 了 路 由 表 中 的 每 一 条 记录 ， 常 量 MAX_TTL 说 明 每 一 记录 在 被 丢弃 之 前 可 以 在 表 中 
保留 多 长 时 间 。 

#define MAX_ROUTES 128 /* maximum size of routing table x/ 

#define MAX_TTL 120 /* time (in seconds) until route expires */ 


typedef struct { 


NodeAddr Destination; /x address of destination x/ 
NodeAddr NextHop; /x address of next hop x*/ 
int Cost; /x distance metric */ 
u_short TTL; /x time to live 大 / 

} Route; 

int numRoutes = 0; 


Route — routingTable[MAX_ROUTES]; 


根据 一 条 新 路 由 来 更 新 本 地 节点 路 由 表 的 例 程 由 mergeRoute 给 出 。 尽 管 没 有 显示 出 
来 ， 但 定时 器 函数 定期 检查 节点 路 由 表 中 的 路 由 列表 ， 对 每 个 路 由 中 的 TITL (生存 期 ) 
字段 进行 递减 运算 ， 并 丢弃 生存 期 为 0 的 所 有 路 由 。 然 而 需要 注意 的 是 ， 一 旦 路 由 被 相 邻 
广 扩 发 送 的 更 新 消息 重新 确认 ，TTL 字段 就 被 重新 设 为 MAX_TTL. 


void 
mergeRoute (Route *new) 
T 

int i; 


for (i = 0; i < numRoutes; ++i) 
{ 
if (new->Destination == routingTable[i].Destination) 
: 
if (new->Cost + 1 < routingTable[Li].Cost) 
| 
/x found a better route: «/ 
break; 
} else if (new->NextHop == routingTableLi].NextHop) { 
/* metric for current next-hop may have 
changed: x/ 
break; 
} else 4 
/x route is uninteresting---just ignore 
it */ 
return; 
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if (i == numRoutes) 
{ 
/* this is a completely new route; is there room 
for it? x*/ 
if (numRoutes < MAXROUTES) 
{ 
++numRoutes: 
} else { 
/x can't fit this route in table so give up */ 
return: 
} 
} 
routinglableli] = *new; 
/x reset TTL */ 
routingTable[i]. TTL = MAX_TTL: 
/x account for hop to get to next node x/ 
++routinglableLi].Cost; 


} 


最 后 ， 过 程 updateRoutingTable 是 主 例 程 ， 它 调用 mergeRoute 合并 从 相 邻 节点 接收 
到 的 路 由 更 新 消息 中 的 所 有 路 由 。 

void 

updateRoutinglable (Route xnewRoute, int numNewRoutes) 


{ 


int i; 
for (i=0; 1 < numNewRoutes; ++i) 
{ 


mergeRoute(&newRoutelil); 


} 


2. 路 由 信息 协议 (RIP) 

在 IP 网 络 中 ， 使 用 最 广泛 的 路 由 协议 之 一 就 是 路 由 信息 协议 (Routing Information 
Protocol，RIP) 。 它 的 广泛 使 用 很 大 程度 上 依赖 于 Unix 操作 系统 “伯克利 软件 发 布 版 ” 
(BSD) 的 一 同 发 布 ， 从 BSDUnix 中 发 展 出 了 许多 Unix 的 商用 版 本 。RIP 还 非常 简单 ， 
它 是 建造 在 距离 问 量 算 法 基础 之 上 的 路 由 协议 的 范例 。 

互联 网 中 的 路 由 协议 与 以 上 描述 的 理想 化 的 图 模型 略 有 
不 同 。 在 互联 网 中 ， 路 由 器 的 目标 是 学 会 如 何 向 不 同 的 网 络 
(network) 转发 分 组 。 因 此 ， 路 由 器 通知 的 是 到 达 网 络 的 开 
销 ， 而 不 是 到 达 其 他 路 由 器 的 开销 。 例 如 ， 在 图 3-30 中 ， 路 
Has C ii FPR Aas A 它 可 以 以 开销 0 到 达 网 络 2 和 网 络 3 
(与 它 直接 相连 )， 以 开销 1 到 达 网 络 5 和 网 络 6， 以 开销 2 
到 达 网 络 4。 

我 们 可 以 从 图 3-31 的 RIP (第 二 版 ) 分 组 格式 中 看 到 这 





一 点 o 分 组 的 主要 部 分 为 (address 9 mask 9 distance) ( 《地 址 9 HENS 9 距离 )) 5 然而 9 路 
由 算法 的 原理 正好 是 一 样 的 。 例 如 ， 如 果 路 由 器 A 。  。 ， 
me 路 H 器 B 得 知 ABE | uk 网 2 7 义 比 经 路 出 4 中 现 eee Ps i errr 
有 的 下 一 跳 到 达 网 络 X 的 开销 更 小 ,那么 A 将 更 新 


Dj -E 一 跳 信息 。 


事实 上 ，RIP 是 距离 向 量 路 由 的 一 个 相当 简单 ares | 
的 实现 。 运 行 RIP 的 路 由 器 每 30s 发 出 一 次 通知 ， 5 


无 论 何 时 路 由 器 收 到 来 自 其 他 路 由 器 的 引起 转 改 表 | | 


路 由 顺 标 签 


改变 的 信息 ， 它 都 将 发 送 一 个 更 新 消息 。 值 得 注意 | 
的 一 点 是 它 支 持 多 地 址 族 ， 而 不 仅仅 是 IP， 这 也 是 | 网 ?的 族 | Meme | 


其 通知 中 存在 Family GR) 部 分 的 原因 。RIP 第 二 网 2 的 地 址 前 级 


版 《RIPv2) 同样 引 人 了 一 个 像 RIP 第 一 版 中 服务 [em 
于 旧 IP 分 类 地 址 一 样 的 子 网 拖 码 ， 这 种 掩 码 将 在 | | 


3.2.5 市 中 介绍 。 到 网 2 的 虐 离 

正如 我 们 下 面 将 看 到 的 ， 在 路 由 协议 中 可 能 
用 多 种 不 同 的 度量 或 开销 来 衡量 链 路 。RIP 采取 最 ”图 3-31 RIP (第 二 版 ) 分 组 格式 
简单 的 方法 ， 使 所 有 链 路 开销 都 等 于 1， 正 如 在 上 面 的 例子 中 所 看 到 的 。 因 此 它 总 是 尽力 
找到 最 少 跳 数 的 路 由 。 有 效 距 离 为 1 一 15，16 表示 无 穷 大 。 这 也 限制 了 RIP 只 可 在 很 小 的 
网 络 上 和 运行， 那些 网 络 的 路 径 长 度 不 超过 15 Bk. 





3.3.3 链 路 状态 (OSPF)° 


链 路 状态 路 由 是 第 二 类 主要 的 域内 路 由 协议 。 链 路 状态 路 由 的 最 初 假设 与 距离 向 量 路 
由 的 最 初 假设 非常 相似 。 假 设 每 个 节点 都 能 找 出 到 它 的 相 邻 节点 〈 向 上 或 向 下 ) 的 链 路 状 
态 以 及 每 条 链 路 的 开销 。 我 们 还 希望 提供 给 每 个 节点 足够 的 信息 ， 使 它 能 找 出 到 达 任 一 目 
标的 最 小 开销 路 径 。 链 路 状态 协议 的 基本 思想 非常 简单 ， 每 个 节点 都 知道 怎样 到 达 它 的 邻 
接点 ， 如 果 我 们 确保 这 种 信息 被 完整 地 传播 到 每 个 节点 ， 那 么 每 个 节点 都 有 足够 的 网 络 信 
息 来 建立 一 个 完整 的 网 络 映 象 。 显 然 ， 这 是 找到 到 达 网 络 中 任 一 点 的 最 短路 径 的 充分 (但 
不 必要 ) 条 件 。 因 此 ， 链 路 状态 路 由 协议 依靠 两 种 机 制 ， 链 路 状态 信息 的 可 靠 传 播 ， 根 据 
所 有 积累 的 链 路 状态 知识 的 总 和 进行 的 路 由 计算 。 

1. 可 靠 扩 散 

可 靠 扩散 (Reliable Flooding) 是 确保 参与 路 由 协议 的 所 有 节点 都 能 得 到 来 自 其 他 节 
点 的 一 个 链 路 状态 信息 副本 的 处 理 过 程 。 正 如 术语 扩散 Cllooding) 所 揭示 的 ， 它 的 基本 
思想 是 一 个 节点 沿 着 所 有 与 其 直接 相连 的 链 路 把 其 链 路 状态 信息 发 送出 去 ， 接 收 到 这 个 信 
息 的 每 个 节点 再 沿 着 所 有 与 它 相连 的 链 路 进行 转发 。 这 个 过 程 一 直 继 续 ， 直 到 该 信息 到 达 
网 络 中 的 所 有 节点 。 E 

更 确切 地 说 ， 每 个 节点 创建 一 个 更 新 分 组 ， 也 叫 链 路 状态 分 组 (LSP)， 包 含 以 下 
信息 ， | 
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创建 LSP 节点 的 ID. 
与 该 节点 直接 相 邻 的 节点 列表 ， 包 括 到 这 些 相 邻 节点 的 链 路 开销 。 
人 | 
这 个 分 组 的 生存 期 CTTL). 

前 两 项 用 于 路 由 计算 ， 后 两 项 用 于 将 分 组 可 靠 地 扩散 到 所 有 节点 。 可 靠 性 包括 确保 拥 
有 信息 的 最 新 副本 ， 因 为 可 能 有 来 自 于 一 个 节点 的 多 种 不 一 致 的 LSP 经 过 网 络 。 保 证 可 
靠 扩散 是 相当 困难 的 〈 例 如 ， 在 ARPANET 网 中 采用 的 链 路 状态 路 由 的 一 个 早期 版 本 就 
曾 在 1981 年 引起 网 络 故障 ) 。 

扩散 的 工作 方式 如 下 。 首 先 ， 两 台 邻 接 路 由 器 之 间 的 LSP 传送 使 用 确认 和 重 传 来 保 
证 可 靠 性 ， 就 像 2. 5 节 描 述 的 可 靠 链 路 层 协议 一 样 。 然 而 ， 还 需要 有 更 多 的 步骤 来 保证 将 
一 个 LSP 可 靠 地 扩散 到 网 络 中 的 所 有 节点 。 

考虑 节点 X 接收 到 一 份 来 自 节点 Y 的 LSP 副本 的 情况 。 注 意 节点 了 可 以 是 与 节点 义 
在 同一 个 路 由 域 中 的 其 他 任何 一 台 路 由 器 。X 检查 是 否 已 经 存 有 一 份 来 自立 的 LSP 副本 。 
如 果 没 有 ， 它 便 存 储 这 份 LSP。 如 果 已 经 有 了 一 份 副本 ， 则 比较 序号 ， 如 果 新 LSP 序号 
更 大 ， 就 被 认为 是 最 新 的 一 份 副本 ， 并 被 保存 用 以 替换 旧 的 LSP。 较 小 的 (或 相等 的 ) FF 
号 意味 着 这 个 LSP 旧 于 (或 不 新 于 ) 已 存储 的 LSP， 因 此 将 被 丢弃 而 无 须 采取 进一步 的 
行动 。 如 果 接 收 到 的 LSP 是 新 的 ， 那 么 XX 将 发 送 这 个 LSP 的 副本 给 除了 刚才 发 送 LSP 的 
那个 相 邻 节点 以 外 的 所 有 相 邻 节点 。 不 把 LSP 发 回 刚才 发 送 它 的 节点 ， 这 使 得 LSP 的 扩 
散 过 程 能 够 结束 。 由 于 将 这 个 LSP 传 向 了 它 的 所 有 邻居 ， 邻 居 又 转 而 做 同样 的 事情 ， 
所 以 最 终 LSP 的 最 新 副本 将 到 达 所 有 节点 。 | 

图 3-32 表示 一 个 LSP 在 一 个 小 型 网 络 中 的 扩散 。 每 个 节点 在 存储 新 的 LSP 后 变 成 带 
阴影 的 形式 。 在 图 3-32a 中 ，LSP 到 达 节 点 X， 在 图 3-32b 中 ,XXX 将 它 发 往 邻 居 A 和 C。 
A 和 C 不 将 它 发 回 X， 但 将 它 发 往 B。 由 于 B 接收 到 这 个 LSP 两 个 同样 的 副本 ， 因 此 它 将 
接收 首先 到 达 的 副本 而 将 第 二 个 作为 重复 予以 忽略 。 然 后 它 将 LSP 传 向 D, 没有 邻居 需 
要 扩散 ， 因 此 过 程 结 束 。 
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@ 





a) LSPANAXT A b) X 扩 散 LSP 到 A 和 C 








d) 扩散 结束 
图 3-32 链 路 状态 分 组 的 扩散 | 
与 在 RIP 中 一 样 ， 每 个 节点 在 两 种 情况 下 产生 LSP。 周 期 性 计时 器 超时 或 拓扑 结构 变 


化 都 将 导致 节点 产生 一 个 新 的 LSP。 然 而 ， 当 与 一 个 节点 直接 相连 的 链 路 或 邻居 出 现 改 障 
时 ， 才 是 节点 产生 一 个 LSP 的 基于 拓扑 的 原因 。 链 路 故障 有 时 可 由 链 路 层 协议 检测 到 。 
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邻居 的 “死亡 ”或 对 邻居 的 连接 的 丢失 可 由 周期 性 的 “hello” 分 组 检测 到 。 每 个 节点 都 在 
规定 的 时 间 间 隔 内 向 它 的 直接 邻居 发 送 这 些 信息 。 如 果 在 一 段 足够 长 的 时 间 内 没有 接收 到 
来 自 于 某 个 邻居 的 “hello” 分 组 ， 通 向 那个 邻居 的 链 路 将 被 宣告 出 现 故 障 ， 并 产生 一 个 新 
的 LSP 来 反映 这 一 事实 。 

链 路 状态 协议 扩散 机 制 的 重要 设计 目标 之 一 是 必须 将 最 新 的 信息 以 尽 可 能 快 的 速度 扩 
散 到 所 有 节点 ， 同 时 旧 信 息 必须 从 网 络 中 删除 而 不 允许 在 网 络 中 循环 。 另外， 我 们 显然 希 
望 减少 网 络 中 传送 的 路 由 的 总 通信 和 量 ， 毕 竞 ， 在 那些 实际 把 网 络 用 于 其 应 用 程序 的 人 看 
来 ， 这 就 是 系统 开销 。 下 面 几 段 描 述 达 到 这 些 目标 的 一 些 方法 。 

减少 系统 开销 的 一 种 简单 的 方法 是 ， 除 非 有 绝对 必要 ， 否 则 避免 生成 LSP。 可 以 使 用 
很 长 时 间 〈 通 常 是 几 个 小 时 ) 的 定时 器 周期 性 地 生成 LSP 来 做 到 这 一 点 。 如 果 当 拓扑 结 
构 改 变 时 扩散 协议 的 确 可 靠 ， 那 么 ， 可 以 放心 假设 不 需要 频繁 发 出 “没有 变化 ”消息 的 做 
法 是 安全 的 。 | | 

为 了 确保 旧 信 息 被 新 信息 代替 ，LSP 应 携带 序号 。 一 个 节点 每 产生 一 个 新 的 LSP， 就 
将 序号 增 1。 与 协议 中 使 用 的 大 多 数 序 号 不 同 的 是 ， 这 些 序号 不 能 重合 ， 所 以 需要 很 大 的 
字段 (如 64 比特 )。 如 果 一 个 节点 出 现 故障 后 又 恢复 ,那么 它 的 序号 从 0 开始 。 如 果 节 点 
出 现 故 障 已 很 长 一 段 时 间 ， 那 么 该 节点 所 有 旧 的 LSP 都 会 超时 (如 下 面 所 述 ); 否则 ， 该 
节点 最 终 会 收 到 一 份 它 自 己 的 带 有 更 大 序号 的 LSP 副本， 然后 它 可 以 将 序号 加 1 并 作为 自 
已 的 序号 使 用 。 这 将 确保 它 的 新 LSP 能 够 代替 所 有 在 节点 出 现 故障 之 前 遗留 下 来 的 
-TOP 

LSP 还 携带 着 一 个 生存 期 ， 用 于 确保 旧 的 链 路 状态 信息 最 终 从 网 络 中 删除 。 一 个 节点 
在 将 新 接收 到 的 LSP 扩散 到 其 邻居 之 前 ， 对 其 TTL 减 1。 同 时 它 也 使 节点 中 存储 的 LSP 
“衰老 ”>。 当 TTL 值 等 于 0 时 ， 节 点 再 次 扩散 TTL 为 0 的 这 个 LSP， 这 被 网 络 中 所 有 节点 
解释 为 删除 这 个 LSP 的 信号。 

2. 路 由 计算 

一 旦 一 个 给 定 节点 有 了 一 份 来 自 其 他 每 个 节点 的 LSP， 它 就 能 计算 出 完整 的 网 络 拓扑 
结构 图 ， 并 可 以 根据 这 幅 图 决定 到 达 每 个 目的 地 的 最 佳 路 由 。 然 后 ， 问 题 就 是 如 何 从 这 些 

言 息 中 计算 出 路 由 。 解 决 办 法 基于 图 论 中 的 一 个 著名 算法 Dijkstra 的 最 短路 径 算法 。 

”我 们 首先 用 图 论 的 术语 来 定义 Dijkstra 算法 。 设 想 一 个 节点 将 它 接收 到 的 所 有 LSP 信 
息 构 造成 一 个 代表 网 络 的 图 ， 其 中 NN 代表 图 中 的 节点 集合 ，7(i, j) 表示 两 个 节点 i，jE€ 
N 之 间 的 边 上 的 非 负 开销 ( 权 值 );， 如 果 在 i j ZAREE, MG, j) =, EER 
的 描述 中 ， 我 们 令 * 表示 这 个 节点 ，*E N， 也 就 是 执行 算法 寻找 到 达 N 中 其 他 所 有 节点 
的 最 短路 径 的 节点 。 此 外 ， 算 法 还 维护 以 下 两 个 变量 ，M 代表 到 目前 为 止 参 与 算法 的 节点 
R, Cin) 表示 从 节点 s 到 每 个 节点 的 路 径 开销 。 给 出 这 些 定义 后 ， 算 法 的 定义 如 下 ， 

M=(s) 
for N—({s} FHRA n 
C(n) =1(s5n) 
while (nM) . | 
M=MU {wi AR Cow) x T(N-M) F ARA w 而 言 是 最 小 的 
for (CN 一 MD) 中 的 每 个 7 
C(n) =MINCC(n) » CCw) +LCw,n)) 
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开销 初始 化 到 其 他 市 点 的 开销 表 C(n)。 然 后 寻找 能 以 最 小 开销 Cw) 到 达 的 节点 ， 并 把 这 
个 节点 加 入 M 中 。 最 后 考虑 用 经 过 w 到 达 节 点 的 开销 来 更 新 开销 表 。 在 算法 的 最 后 一 行 
中 ， 如 果 从 源 点 :到 w， 加 上 从 w 到 总 的 开销 小 于 已 有 的 从 s 到 OREM, I 
么 我 们 就 选择 这 条 经 w 到 达 的 新 路 径 。 重 复 这 个 过 程 ， 直 到 所 有 节点 都 归 和 人 入 M 中 。 

实际 上 ， 每 台 交 换 机 使 用 一 种 称 为 向 前 搜索 (forward search) 的 Dijkstra 算法 实现 ， 
从 它 收 集 的 LSP 中 直接 计算 路 由 表 。 具 体 地 说 ， 每 台 交 换 机 维护 两 张 表 : 试探 表 (Tenta- 
tive) 和 证 实 表 (Confirmed)。 每 张 表 中 有 多 条 记录 ， 每 条 记录 包 售 (Destination, Cost, 
NextHop)( 目 的 地 ， 开 销 ， 下 一 跳 )。 算 法 如 下 : 

1) 用 我 的 节点 中 的 一 条 记录 初始 化 证 实 表 ， 这 条 记录 中 的 开销 为 0。 

2) 在 前 一 步 中 加 入 证 实 表 的 那个 三 点 ， 称 为 Next (下 一 点 ) 市 点 ， 选 择 它 的 LSP., 

3) 对 于 Next 节点 的 每 个 Neighbor ( 相 邻 ) 节点 ， 计 算 到 达 这 些 相 邻 节 点 的 开销 
(Cost)， 也 就 是 从 我 的 证 点 到 Next Ta AF Next WAZ Neighbor WAH) RITA ZA. 

a) 如 果 相 邻 节 点 当前 既 不 在 证 实 表 中 也 不 在 试探 表 中 ,那么 把 (Neighbor, 

Cost，NextHop) 记录 加 入 试探 表 中 ， 其 中 NextHop ERANA Next WAART A o 

b) 如 果 Neighbor 节点 当前 在 试探 表 中 ， 且 开销 小 于 当前 登记 在 表 中 的 开销 ， 那 

信用 记录 (Neighbor, Cost, NextHop) 替换 当前 记录 ， 其 中 NextHop 是 我 到 达 

Next 节点 所 经 的 节点 。 | 

4) 如 果 试 探 表 为 空 ， 则 停止 。 否 则 ， 从 试探 表 中 挑选 开销 最 小 的 记录 ， 把 它 移入 证 
实 表 ， 并 转 回执 行 第 2) 步 。 | 

我 们 看 一 个 例子 就 更 容易 理解 这 个 算法 。 考 虑 图 3- 
33 中 描述 的 网 络 。 注 意 ， 这 幅 图 不 像 前 几 个 例子 ， 这 个 
网 络 带 有 不 同 的 边 上 开销 。 表 3-14 给 出 构造 节点 D 的 路 
由 表 的 步 又。 我 们 用 与 节点 D 相 邻 的 节点 B 和 C 表示 D 
的 两 个 输出 。 注 意 ， 这 个 算法 的 开头 看 起 来 似乎 方向 有 
im (Hon, BRA B 的 开销 为 11 的 路 径 第 一 个 加 入 试 





探 表 )， 但 最 终 得 到 了 到 达 所 有 市 点 的 最 小 开销 路 径 。 图 3-33 ” 链 路 状态 路 由 的 网 络 示例 
表 3-14 对 节点 D (图 3-33) 建立 路 由 表 的 步 野 
步 又 证 实 表 试探 表 注 # 


1 D5 057=) 因为 D 是 证 实 表 中 唯一 的 新 成 员 ， 所 以 观察 它 的 LSP 
» | D0) (B,11,B) K D 的 LSP 表明 ， 我 们 可 以 以 开销 11 通过 B 到 达 B， 比 表 中 任 
| ™ (Gi250) 何其 他 路 径 都 好 ， 因 此 把 它 加 入 试探 表 中 ， 同 理 C 也 加 入 


把 试探 表 中 开销 最 小 的 记录 C 加 入 证 实 表 中 。 接 着 ， 检 查证 实 
表 中 新 的 成 员 C 的 LSP 
(B,5,C) 因为 通过 C 到 达 B 的 开销 是 5， 所 以 替换 记录 (B, 11, B), C 
CASO) 的 LSP 告诉 我 们 可 以 以 开销 12 到 达 A 


3 Use 2 (B,11,B) 


4 (D,0,—)(C,2,C) 


(D,0,—)(C,2,C) 


BEO (A,12,C) 把 试探 表 中 开销 最 小 的 记录 B 加 入 证 实 表 中 ， 观 察 它 的 LSP 
(D,0,—)(C,2,C) ` ` ` ` Sy ` \ = ` 
6 CB,5,C) (A,10,C) 因为 可 以 经 过 B 以 开销 5 到 达 A， 所 以 替换 试探 表 中 的 记录 









(D,0,—)(C,2,C) 


PER WOE ; a ER jek 
| (B,5,0)(A, 10,C) B Daa ee pee ae 9 Be 
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链 路 状态 路 由 算法 有 许多 优点 : 它 可 以 很 快 达到 稳定 状态 ， 不 产生 过 多 的 通信 量 ， 而 
且 对 拓扑 结构 改变 或 节点 故障 反应 迅速 。 但 缺点 是 每 个 节点 存储 的 信息 量 一 个 网 络 中 其 
他 所 有 节点 的 LSP) 可 能 非常 大 。 这 是 路 由 的 基本 问题 之 一 ， 也 是 可 扩展 性 这 个 更 一 般 性 
问题 的 一 个 例证 。 对 于 既 能 解决 特殊 性 问题 〈 每 个 节点 可 能 需要 的 存储 量 ) 又 能 解决 一 般 
性 问题 (可 扩展 性 ) 的 一 些 方法 ， 我 们 将 在 下 一 章 讨 论 。 

结论 距离 向 量 算法 和 链 路 状态 算法 的 区 别 可 以 总 结 如 下 。 在 距离 向 量 算 法 中 ， 

每 个 节点 只 和 直接 相连 的 节点 进行 通信 ， 但 是 它 把 所 知 的 全 部 信息 ( 即 到 所 有 节 

点 的 距离 ) 都 告诉 它们 。 在 链 路 状态 算法 中 ， 每 个 节点 和 其 余 各 个 节点 都 进行 通 

信 ， 但 只 告诉 它们 自己 确切 知道 的 信息 〈 即 与 其 直接 相连 的 链 路 状态 ) 。 

3. 开放 最 短路 径 优先 协议 (OSPF) 

一 个 使 用 最 广泛 的 链 路 状态 路 由 协议 是 开放 最 短路 径 优先 (Open Shortest Path 
First, OSPF) 协议 。 第 一 个 词 “Open” 指 出 它 是 一 个 开放 的 、 非 专 有 的 和 由 IETF 主持 
创建 的 标准 。“SPF” 部 分 来 自 于 链 路 状态 路 由 的 另 一 个 名 字 。OSPF 为 以 上 描述 过 的 基本 
链 路 状态 算法 增加 了 相当 多 的 特性 ， 这 些 特性 包括 : | 

。 路 由 消息 的 认证 : 这 是 一 个 很 好 的 特性 ， 因 为 经 常 有 一 些 错误 配置 的 主机 认为 它 
能 以 0 开销 到 达 全 世界 的 每 台 主机 。 当 主机 发 布 这 件 事 时 ， 周 围 相 邻 的 每 台 路 由 
器 都 更 新 它们 的 转发 表 以 指向 这 台 主 机 ， 也 就 是 说 这 台 主 机 接收 到 数量 非常 大 的 
数据 ， 其 实 它 不 知 该 如 何 处 理 。 通 常 ， 它 将 所 有 数据 丢弃 ， 使 网 络 停止 。 在 很 多 
情况 下 ， 这 样 的 灾难 可 以 通过 要 求 认 证 路 由 更 新 消息 来 预防 。OSPF 早期 的 版 本 使 
用 一 个 简单 的 8 字 节 口令 进行 认证 。 虽然 这 个 认证 尚 不 足以 防止 那些 恶意 用 户 ， 
但 是 它 减 少 了 由 错误 配置 引起 的 很 多 问题 。( 类 似 的 一 种 认证 形式 也 加 到 RIP 第 2 
RH.) 8. 3 节 讨论 的 更 强 的 密码 认证 是 后 来 加 上 去 的 。 

。 附加 的 层次 :分 层 是 使 系统 具有 更 好 的 可 扩展 性 的 基本 工具 之 一 。OSPF 通过 允许 
将 域 划分 成 区 (area) 给 路 由 层次 结构 引入 了 另外 一 层 。 这 意味 着 域内 的 路 由 器 无 
须知 道 如 何 到 达 域 内 的 每 个 网 络 ， 只 需 知 道 如 何 到 达 正 确 的 区 就 足够 了 。 这 样 ， 
必须 传送 及 存储 在 每 个 节点 中 的 信息 量 将 会 减少 。 我 们 将 在 4.1.1 节 详细 地 讨 


BK: 
。 负载 平衡 ，OSPF 允许 到 同一 位 置 的 多 条 路 由 有 相同 的 开销 ， 这 样 可 以 使 通信 量 共 
匀 地 分 布 于 这 几 条 路 由 上 。 


OSPF 消息 有 多 种 不 同类 型 ， 但 是 都 以 相同 的 首部 开始 ， 如 图 3- 34 所 示 。Version 
(版 本 ) 字段 当前 设 为 2，Type (类 型 ) 字段 可 以 
M1~5 取 值 。SourceAddr ( 源 地 址 ) 指明 消息 的 
发 送 方 ，Areald (区 标识 符 ) 是 节点 所 在 区 的 32 
位 标识 。 除 了 认证 数据 以 外 ， 整 个 分 组 使 用 和 IP 
首部 同样 的 算法 〈 见 2.4 节 ) 由 16 位 的 校 验 和 来 
保护 。 若 不 使 用 认证 ，Authentication type (认证 
类 型 )》 为 0; 否则 为 1， 表示 使 用 一 个 简单 的 口 
令 ; 或 者 为 2， 表 示 使 用 8.3 节 中 描述 的 一 种 加 
密 认 证 校 验 和 。 在 后 一 种 情况 下 ，Authentication 图 3-34 OSPF 首部 格式 





(认证 ) 字段 携带 口令 或 加 密 校 验 和 ， 

在 5 种 OSPF 消息 类 型 中 ， 类 型 1 是 “hello” 消 息 ， 路 由 器 将 它 发 送 给 对 等 实体 ， 表 
明 目 己 仍 是 活动 的 且 以 上 述 方式 连接 。 其 余 的 消息 类 型 用 于 链 路 状态 消息 接收 的 请 求 、 发 
送 和 确认 。OSPF 中 链 路 状态 消息 的 基本 构件 叫 作 链 路 状态 通知 (LSA) 。 一 条 消息 可 包 
含 多 个 LSA。 这 里 我 们 提供 一 些 有 关 LSA 的 细节 。 

像 任何 互联 网 路 由 协议 一 样 ，OSPF 必须 提供 如 何 到 达 网 络 的 信息 。 因 此 ，OSPF 必 
须 比 以 上 描述 的 简单 基于 图 的 协议 提供 更 多 的 信息 。 特 别 是 ， 一 个 运行 OSPF 的 路 由 器 可 
以 产生 链 路 状态 分 组 ， 通 知 直接 与 其 相连 的 一 个 或 多 个 网 络 。 另 外 ， 一 个 通过 某 条 链 路 连 
接 到 另 一 人 台 路 由 器 上 的 路 由 器 必须 通知 经 此 链 路 到 达 该 路 由 器 所 需 的 开销 。 这 两 种 类 型 的 
通知 ， 对 于 一 个 域 中 的 所 有 路 由 占 确 定 到 达 该 域 中 所 有 网 络 的 开销 及 到 达 每 个 网 络 适 当 的 
下 一 跳 都 是 必需 的 。 

图 3-35 给 出 了 类 型 1 的 链 路 状态 通告 的 分 
组 格式 。 类 型 1 的 LSA 在 路 由 器 之 间 通知 链 路 
开销 。 类 型 2 的 LSA 用 来 通知 发 出 通知 的 路 由 
器 所 连接 的 网 络 ， 而 其 他 类 型 用 于 支持 附加 的 层 
次 结构 ， 见 下 节 所 述 。LSA 中 的 很 多 字段 应 与 
前 面 讨论 过 的 类 似 。LS Age〈 链 路 状态 生存 期 ) eB ee es 
HATEEN, KIERR HAH, MEE) HRN | Tost | FRE 
=A MACY, L AA Type CK I eg 
字段 告诉 我 们 这 是 一 个 类 型 1 LSA, A a O 

在 一 个 类 型 1 的 LSA F, Link-State ID 
( 链 路 状态 ID) 和 Advertising router 〈 通 知 路 由 器 ) 字段 是 一 样 的 。 每 个 字段 都 携带 一 个 
创建 此 LSA 的 路 由 器 的 32 位 标识 符 。 尽 管 很 多 分 配 策略 都 可 用 于 分 配 此 ID， 但 最 本 质 的 
是 在 一 个 路 由 域 中 ID 必须 唯一 ， 并 且 一 个 给 定 的 路 由 器 必须 一 直 使 用 同一 个 路 由 硕 ID. 
一 种 符合 这 些 要 求 的 选择 路 由 器 ID 的 方法 是 选择 所 有 IP 地 址 中 最 小 的 一 个 赋 给 路 由 天 。 
(注意 ， 一 台 路 由 器 的 每 个 接口 都 可 能 有 一 个 不 同 的 IP 地 址 ,) 

LS sequence number (LS 序号 ) 的 使 用 完全 如 上 所 述 ， 用 来 检测 旧 的 或 重复 的 LSA, 
LSchecknum (LS 校 验 和 ) 类 似 于 我 们 在 2. 4 节 和 其 他 协议 中 讲 过 的 某 些 其 他 校 验 和 ， 用 
来 验证 数据 未 被 破坏 。 它 涉及 分 组 中 除 LSAge 之 外 的 所 有 字段 ， 因 此 每 当 LSAge 加 1 后 ， 
不 必 重 新 计算 校 验 和 。Length KE) 是 以 字 节 为 单位 的 整个 LSA 的 长 度 。 

现在 我 们 来 看 实际 的 链 路 状态 信息 。 因 为 TOS (服务 类 型 ) 信息 的 存在 使 得 这 件 事 稍 
有 一 点 麻烦 ， 故 暂且 将 其 忽略 ， 那 么 LSA 中 的 每 条 链 路 都 可 由 一 个 LinkID 〈 链 路 ID)、 
一 些 Link Data 〔( 链 路 数据 ) 和 一 个 metric CÈ EE) 来 表示 。 这 些 字 段 中 的 前 两 项 标识 
链 路 ， 一 种 普遍 使 用 的 方法 是 使 用 链 路 远 端 的 路 由 器 ID 作为 链 路 ID， 并 且 如 采 需 要 的 
is. 使 用 链 路 数据 来 区 别 多 条 并 行 链 路 。 度 量 值 当然 是 链 路 的 开销 。Type (类型) 告诉 我 
们 有 关 链 路 的 一 些 信息 ， 例 如 ， 它 是 不 是 一 条 点 到 点 的 链 路 。 

TOS 信息 的 使 用 ， 人 允许 OSPF 基于 它们 的 TOS 字段 值 为 卫 分 组 选择 不 同 的 路 由 。 依 
据 数据 的 TOS 值 可 为 链 路 分 配 多 个 度量 值 而 不 是 只 分 配 一 个 度量 值 。 例 如 ， 在 网 络 中 有 
一 条 链 路 专用 于 对 延迟 很 敏感 的 通信 ， 那 么 我 们 就 可 以 用 一 个 较 低 的 度量 值 作 为 TOS {E 
表示 低 延 迟 ， 而 用 一 个 较 高 的 度量 值 表示 其 他 。OSPE 将 为 设置 了 那个 TOS 值 的 分 组 选 
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择 不 同 的 最 短路 径 。 值 得 注意 的 是 ， 直 到 编写 本 书 时 ， 这 项 功能 还 未 被 广泛 应 用 。 


3.3.4 ESB 

在 前 面 的 讨论 中 ， 当 我 们 执行 路 由 算法 时 ， 都 假设 链 路 开销 或 度量 标准 是 已 知 的 。 本 
节 我 们 来 看 实际 中 一 些 有 效 的 计算 链 路 开销 的 方法 。 前 面 我 们 已 经 看 到 一 个 完全 合理 和 十 
分 简单 的 例子 ， 即 给 所 有 链 路 分 配 的 开销 都 是 1， 这 样 最 小 开销 的 路 由 也 就 是 跳 数 最 少 的 
路 由 。 然 而 这 种 方法 有 几 个 缺点 。 首 先 ， 它 不 是 根据 时 延 区 分 链 路 。 这 样 ， 对 路 由 协议 来 
说 ， 时 延 为 250ms 的 卫星 链 路 和 时 延 为 lms 的 陆地 链 路 是 没有 区 别 的 。 其 次 ， 它 不 是 根 
据 容量 区 分 链 路 ， 这 使 得 传输 速度 为 9. 6kbps 的 链 路 与 传输 速度 为 45Mbps 的 链 路 看 起 来 
一 样 好 。 最 后 ， 它 也 不 是 根据 链 路 当前 的 负载 情况 区 分 链 路 ， 使 其 不 可 能 绕 过 负载 过 重 的 
链 路 。 结 果 证 明 最 后 一 个 问题 是 最 难 的 ， 因 为 你 试图 用 单纯 数量 上 的 开销 来 获得 复杂 的 和 
动态 的 链 路 特征 。 

很 多 不 同 的 链 路 开销 计算 方法 都 以 ARPANET 网 作为 测试 环境 。 (也 正 是 在 ARPA- 
NET 网 中 展示 了 链 路 状态 路 由 的 稳定 性 胜 过 距离 向 量 路 由 ; 最 初 的 机 制 采 用 距离 问 量 ， 
但 后 来 的 版 本 使 用 链 路 状态 。) 下 面 的 讨论 研究 ARPANET 网 路 由 度量 标准 的 发 展 过 程 ， 
同时 ， 也 研究 了 这 个 问题 的 一 些 细微 方面 。 

最 初 的 ARPANET 网 路 由 度量 标准 度量 在 每 条 链 路 上 排队 等 待 发 送 的 分 组 数量 ， 有 
10 个 分 组 排队 等 待 发 送 的 链 路 分 配 到 的 开销 比 有 5 个 分 组 排队 等 待 发 送 的 链 路 大 。 然 而 ， 
使 用 队列 长 度 作为 路 由 度量 标准 并 不 是 个 好 办 法 ， 因 为 队列 长 度 是 负载 大 小 的 一 个 人 为 度 
量 ， 它 把 分 组 移 往 最 短 的 队列 而 不 是 目的 地 ， 这 种 情况 很 像 有 些 人 在 超市 收 款 台 前 从 一 个 
队列 换 到 另 一 个 队列 。 更 确切 地 说 ， 起 初 的 ARPANET 网 路 由 机 制 容忍 这 样 一 个 事实 ， 
即 它 不 考虑 链 路 的 带宽 ， 也 不 考虑 链 路 的 时 延 。 | 

ARPANET 网 路 由 算法 的 第 2 版 ， 有 时 称 为 新 路 由 机 制 (new routing mechanism), 
既 考 虑 了 链 路 市 宽 ， 又 考虑 了 链 路 时 延 ， 并 使 用 延迟 而 不 是 队列 长 度 作为 负载 的 衔 量 标 
准 。 其 实现 方式 如 下 : 首先 每 个 进入 的 分 组 以 其 到 达 路 由 器 的 时 间 CArrivalTime) 作为 
时 标 ， 同 时 记录 它 离 开路 由 器 的 时 间 (DepartTime); 其 次 ， 当 从 链 路 另 一 端 接收 到 链 路 
层 ACK 后 ， 节 点 计算 分 组 的 延迟 为 

Delay= (DepartTime— ArrivalTime) + TransmissionTime + Latency 
其 中 TransmissionTime 和 Latency 都 是 链 路 的 静态 特征 ， 分 别 反映 链 路 的 带宽 和 时 延 。 
注意 在 这 个 公式 中 ，DepartTime 一 ArrivalTime 表示 分 组 在 节点 中 因 装 载 而 被 延迟 (排队 
SRO 的 时 间 量 。 如 果 ACK 没有 到 达 而 是 分 组 超时 ， 就 把 DepartTime 重新 设 定 为 分 组 的 
重 传 (retransmit) 时 间 。 这 种 情况 下 ，DepartTime 一 ArrivalTime 体现 了 链 路 的 可 舍 
性 一 一 分 组 被 重 传 的 次 数 越 多 ， 链 路 的 可 靠 性 越 差 ， 我 们 就 越 想 避免 这 种 情况 。 最 后 ， 分 
配给 每 条 链 路 的 权 值 是 最 近 从 这 条 链 路 发 送 的 分 组 所 经 历 的 平均 延迟 。 

虽然 这 个 方法 比 原来 的 机 制 有 所 改进 ， 但 也 存在 不 少 问题 。 在 较 轻 负载 下 ， 它 可 以 正 
党 工作 ， 因 为 延迟 的 两 个 静态 因素 支配 着 开销 。 然 而 ， 在 重负 载 下 ， 拥 塞 的 链 路 将 开始 通 
知 一 个 很 高 的 开销 。 这 就 使 所 有 的 通信 量 脱离 该 链 路 ， 从 而 使 其 空闲 ， 然 后 ， 它 又 会 通知 
一 个 低 开 销 ， 因 此 ， 又 引 回 所 有 通信 量 ， 如 此 反复 。 这 种 不 稳定 性 产生 的 后 果 就 是 在 重负 
载 下 ， 许 多 链 路 实际 在 空闲 状态 上 浪费 大 量 时 间 ， 这 是 重负 载 下 最 不 希望 发 生 的 事情 。 

另 一 个 问题 是 链 路 开销 的 范围 会 过 大 。 例 如 ， 一 条 传输 速度 为 9. 6kbps 的 重负 载 链 
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路 ， 其 开销 大 约 相当 于 传输 速度 为 56kbps 的 轻 负载 链 路 的 127 倍 。 这 就 意味 着 ,与 传输 
速度 为 9. 6kbps 的 1 跳 路 径 相 比 ， 路 由 算法 宁愿 选择 一 条 由 传输 速度 为 56kbps 的 轻 负载 
链 路 组 成 的 126 跳 的 路 径 。 尽 管 从 超 负 载 的 链 路 上 减少 一 些 通信 量 是 一 个 好 主意 ， 但 是 这 
并 没有 什么 吸引 力 ， 因 为 它 失 掉 了 超载 的 通信 量 。 用 126 跳 的 链 路 去 完成 1 跳 的 链 路 能 完 
成 的 事 ， 通 常会 极 大 地 浪费 网 络 资源 。 同 样 ， 对 卫星 链 路 而 言 也 很 不 利 ， 一 条 56kbps 的 
空闲 卫星 链 路 要 比 一 条 9. 6kbps 的 空闲 陆地 链 路 开销 高 得 多 ， 尽 管 前 者 可 以 为 高 带宽 的 应 
用 提供 更 好 的 性 能 。 

第 三 种 称 为 “修正 的 ARPANET 网 路 由 度量 标准 ”的 方法 解决 了 这 些 问 题 。 主 要 的 
改进 是 大 量 缩减 度量 值 的 动态 范围 ， 说 明 链 路 的 类 型 以 及 减缓 度量 值 随时 间 的 变化 。 

可 通过 以 下 几 种 措施 来 减缓 度量 值 的 变化 。 首 先 ， 将 延迟 度量 换 成 链 路 的 利用 率 ， 并 
将 这 个 值 和 最 近 记 录 的 利用 率 取 平 均值 来 减缓 突然 的 改变 。 第 二 ， 对 于 从 一 个 衡量 周期 到 
下 一 个 周期 中 度量 值 可 以 改变 多 少 要 有 严格 的 限制 。 通 过 减缓 开销 的 变化 ， 所 有 节点 同时 
丢弃 一 条 路 由 的 可 能 性 就 大 大 降低 了 。 

把 测 得 的 利用 率 、 链 路 类 型 和 链 路 速度 输入 到 一 个 如 图 3- 36 所 示 的 函数 中 ， 就 得 到 
动态 范围 的 压缩 。 观 察 以 下 几 点 : | 

。 一 个 高 负载 链 路 的 开销 不 可 能 大 于 其 空闲 时 开销 的 3 倍 。 

o 最 昂贵 的 链 路 开销 也 仅仅 是 最 廉价 的 链 路 开销 的 7 倍 。 

。 高 速 的 卫星 链 路 比 低 速 的 陆地 链 路 更 有 吸引 力 。 

。 只 有 在 中 负载 或 高 负载 的 情况 下 ， 开 销 才 是 链 路 利用 率 的 函数 。 
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图 3-36 修正 的 ARPANET 网 路 由 选择 度量 值 与 链 路 使 用 率 


这 些 因素 意味 着 一 条 链 路 不 可 能 完全 被 丢弃 ， 因 为 开销 增长 3 倍 ， 对 于 一 些 路 径 来 
说 ， 这 条 链 路 可 能 会 成 为 不 可 取 的 ， 然而， 对 于 其 他 路 径 来 说 却 仍 是 最 佳 选择 。 图 3- 36 
中 曲线 的 斜率 、 偏 移 量 和 分 界 点 是 通过 反复 试验 获得 的 ， 并 对 其 进行 仔细 地 调整 以 提供 良 
好 的 性 能 。 

我 们 用 现实 来 结束 关于 路 由 指标 的 讨论 。 在 本 书写 作 期 间 ， 大 多 数 的 实际 网 络 度量 变 
化 非常 少 ， 且 在 网 络 管理 员 的 控制 之 下 ， 而 不 是 像 前 面 描述 的 那么 自动 化 。 部 分 原因 是 人 
们 普遍 认为 动态 变化 的 指标 太 不 稳定 ， 即 使 事实 可 能 并 非 如 此 。 也 许 更 清楚 的 是 ， 今 天 的 
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监控 路 由 行为 

鉴于 穿 过 因特网 这 样 规模 的 网 络 时 路 由 分 组 的 复杂 性 ， 我 们 也 许 想 知道 系统 是 如 何 正 
常 工作 的 。 我 们 有 时 候 知道 它 工作 正常 ， 因 为 我 们 可 以 连 到 全 世界 的 任何 一 个 站 点 上 。 但 
我 们 怀疑 它 不 是 一 直 都 正常 工作 ， 因 为 有 时 我 们 无 法 连接 到 某 些 站 点 上 。 真 正 的 问题 是 当 
我 们 连接 失败 时 ， 确 定 系统 的 哪 一 部 分 出 了 错 ， 例 如 某 种 路 由 方式 不 能 正常 工作 时 ， 是 由 
于 远程 服务 器 太 忙 还 是 某 条 链 路 或 某 合 机 器 坏 了 ? 

这 实际 上 是 一 个 网 络 管理 问题 ， 虽 然 系统 管理 员 可 以 用 一 些 工具 来 监控 网 络 ， 如 
9.3.2 节 描述 的 简单 网 络 管理 协议 (SNMP)， 但 网 管 问 题 对 整个 因特网 来 说 仍然 是 未 解决 
的 一 个 主要 问题。 实际 上 ， 目 前 因特网 已 经 增长 到 如 此 之 大 且 如 此 复杂 ， 即 使 它 是 由 一 些 
人 工 的 和 很 大 程度 上 确定 的 部 分 组 成 ， 但 我 们 仍 在 很 大 程度 上 把 它 看 作 是 一 个 活 的 有 机 体 
或 自然 现象 去 研究 。 也 就 是 说 ， 我 们 通过 在 因特网 上 进行 一 些 实验 试图 了 解 它 的 动态 行 
为 ， 并 提出 模型 来 解释 我 们 的 观察 。 | 

此 类 研究 的 一 个 极 好 例子 是 由 Vern Paxson 做 出 的 。1995 Æ, Paxson 使 用 Unix 的 
traceroute 工具 研究 了 37 个 因特网 站 点 之 间 的 40 000 条 端 到 端的 路 由 。 他 试图 回答 路 由 
如 何 出 故障 、 稳 定 的 路 由 如 何 过 时 以 及 它们 是 否 对 称 的 问题 。Paxson 发 现 用 户 遇 到 一 个 
“严重 的 端 到 端 路 由 问题 的 可 能 性 是 1/30， 并 且 这 样 的 问题 通常 持续 约 30s。 他 还 发 现 ， 有 
2/3 的 因特网 路 由 持续 存在 几 天 或 几 周 ， 生 大 约 1/3 的 时 间 内 ， 从 主机 A 到 主机 B 的 路 由 
与 从 主机 B 到 主机 A 的 路 由 相 比 ， 至 少 包含 一 个 不 同 的 路 由 域 。 最 后 Paxson 得 出 结论 ， 
因特网 路 由 正在 变 得 越 来 越 不 可 预测 。 





到 目前 为 止 ， 我 们 只 讨论 了 交换 机 要 做 什么 ， 却 没有 讨论 它 怎样 去 做 。 构 造 一 台 交 换 
机 有 一 个 很 简单 的 方法 : 买 一 台 普 通 的 工作 站 并 为 它 配置 多 个 网 络 接口 。 这 人 台 设 备 运行 适 
当 的 软件 就 可 以 在 它 的 一 个 接口 上 接收 分 组 ， 执 行 前 面 描述 的 任 一 种 交换 功能 ， 然 后 在 它 
的 另 一 个 接口 输出 。 实 际 上 ， 当 你 想 做 像 开发 新 路 由 协议 这 样 的 事 时 ， 这 是 一 种 建立 实验 
交换 机 的 流行 方法 ， 因 为 它 提供 非常 好 的 灵活 性 和 熟悉 的 编程 环境 。 许 多 低 端 路 由 器 的 体 
系 结构 也 没有 脱离 这 种 方法 。 
3.4.1 交换 基础 

交换 与 路 由 是 相似 的 实现 技术 ， 所 以 我 们 将 在 这 一 节 探讨 它们 的 通用 技术 ， 然 后 转向 
一 些 在 3.4.4 节 影 响 路 由 实现 的 特殊 话题 。 在 本 节 的 大 部 分 内 容 里 ， 我 们 使 用 交换 机 
(switch) 来 表示 这 两 种 设备 ， 因 为 它们 的 设计 是 类 似 的 〈 且 总 是 说 “交换 机 和 路 由 器 ” 
很 无 聊 ) 。 | 

图 3-37 给 出 将 一 台 有 3 个 网 络 接口 的 工作 站 作为 交换 机 的 例子 。 图 中 显示 一 个 分 组 
可 以 从 交换 机 的 接口 1 到 达 然 后 从 接口 2 输出 的 一 条 路 径 。 在 这 里 ， 我 们 假设 工作 站 有 一 
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种 机 制 可 以 把 数据 从 一 个 接口 直接 移动 到 它 的 主 存储 器 ， 而 不 是 被 CPU 直接 复制 ， 这 种 
技术 叫 作 直接 内 存 访问 (DMA)。 一 旦 分 组 进入 内 存 ，CPU 就 检查 其 首部 来 决定 分 组 应 该 
从 哪个 接口 发 送出 去 ， 然 后 ， 它 用 DMA 把 分 组 移动 到 相应 的 输出 接口 。 注 意 ， 图 3-37 并 
没有 画 出 分 组 进入 CPU, ly CPU 只 检查 分 组 的 首部 ， 它 并 不 读 取 分 组 中 的 每 个 数据 
字 节 ， | 
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图 3-37 用 作 分 组 交换 机 的 通用 处 理 器 


使 用 工作 站 作为 交换 机 的 主要 问题 是 它 的 性 能 要 受到 限制 ， 因为 所 有 分 组 都 必须 通过 
一 个 的 争 用 点 。 在 上 面 提 到 的 例子 中 ， 每 个 分 组 都 要 两 次 经 过 I/O 总线 ， 一 次 是 写 入 内 
人 存 ， 一 次 是 从 内 存 中 读 出 。 这 样 一 个 设备 的 总 吞吐 量 〈( 所 有 输入 可 支持 的 总 的 数据 速率 ) 
的 上 界 是 内 存 市 宽 的 一 半 ， 或 者 是 IO 总 线 带 宽 的 一 半 ， 取 两 者 中 较 小 的 一 个 (通常 是 1/ 
O 总 线 带 宽 ) 。 例 如 ， 一 台 有 133MHz, 64 位 1/O 总 线 的 工作 站 能 够 传输 的 数据 峰值 速率 
略 高 于 8Gbps。 因 为 转发 一 个 分 组 要 经 过 总 线 两 次 ， 实 际 的 速度 就 被 限制 在 4Gbps， 它 足 
以 文 持 100Mbps 的 中 问 以 太 网 接口 卡 。 但 在 互联 网 中 很 难 找到 足够 好 的 高 端 路 由 器 。 

“此 外 这 个 上 界 还 假设 移动 数据 是 唯一 的 问题 ,这 种 估算 对 长 分 组 是 很 接近 的 ， 但 当 
分 组 都 较 短 时 就 相差 很 远 。 在 后 一 种 情况 中 ， 处 理 每 个 分 组 的 开销 ， 即 分 析 它 的 首部 信 
县 及 次 定 把 分 组 从 哪个 输出 链 路 传输 出 去 ， 可 能 占 开 销 的 绝 大 部 分 。 例 如 ， 假 设 一 个 工 
作 站 每 秒 能 对 200 000 个 分 组 完成 所 有 必要 的 交换 处 理 ， 有 时 称 为 分 组 每 秒 传输 率 
(pps) 。( 这 个 数字 代表 了 当今 高 档 PC 的 处 理 能 力 。) 如 果 平 均 分 组 较 短 ， 例 如 64 字 节 ， 
这 就 意味 着 | 

Throughput= pps X (BitsPerPacket) =2 X106 X 64 X 8=1024 x 10° 
也 就 是 1Gbps 的 吞吐 量 ， 大 大 低 于 当今 网 络 用 户 要 求 的 范围 。 记 住 这 1Gbps 是 连接 在 这 
个 交换 机 上 的 所 有 用 户 共享 的 ， 正 如 以 太 网 中 带宽 被 连接 到 共 阐 介质 上 的 所 有 用 户 所 共计 
一 样 。 那 么 ， 假 如 一 人 台 交 换 机 有 这 样 聚 合 吞 吐 量 且 这 有 20 个 端口 ， 则 每 个 端口 就 只 能 处 
理 50Mbps 的 平均 数据 速率 。 

要 解决 这 个 问题 ， 硬 件 设计 者 们 设计 出 了 大 规模 的 交换 机 阵列 ， 以 减少 争 用 的 数量 ， 
提供 较 高 的 总 吞吐 量 。 注 意 ， 有 一 些 争 用 是 不 可 避免 的 : 如 果 每 个 输入 都 有 数据 要 发 送 到 
同一 个 输出 上 ， 那 么 它们 不 可 能 同时 发 送 。 人 然而 ， 如 采 在 不 同 输入 上 到 达 的 数据 要 送 到 不 
同 的 输出 上 ， 一 台 设 计 展 好 的 交换 机 能 够 以 并 行 的 方式 把 数据 从 输入 送 到 输出 上 上， 这样 就 
增 大 了 总 的 吞吐 量 。 | 
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定义 吞吐 量 

很 难 准确 地 给 交换 机 的 吞吐 量 下 定义 。 直 观 上 ， 如 果 一 台 交 换 机 及 个 输入 ， 而 每 个 
输入 支持 的 链 路 速度 为 % ， 那 我 们 就 认为 吞吐 量 是 所 有 sı 之 和 。 这 也 许 是 实际 中 交换 机 所 
能 提供 的 最 大 吞吐 量 。 但 事实 上 ， 没 有 任何 交换 机 能 保证 这 样 的 性 能 水 平 。 原 因 很 简单 ， 
假设 在 一 段 时 间 内 ， 到 达 交 换 机 的 所 有 分 组 都 要 发 送 到 同一 个 输出 上 ， 只 要 那个 输出 的 带 
宽 小 于 所 有 输入 带宽 之 和 ， 那 么 一 些 分 组 就 将 被 送 入 缓冲 区 或 丢弃 。 在 这 种 特定 的 通信 量 
模式 下 ， 交 换 机 无 法 提供 持续 的 而 且 速 度 高 于 那个 输出 链 路 速度 的 吞吐 量 。 但 是 ， 如 果 分 
组 平均 分 布 在 不 同 的 输出 端口 上 ， 交 换 机 就 能 够 控制 所 有 输入 端口 以 全 链 路 速度 进入 的 通 
信 量 ， 这 种 情况 被 认为 是 最 优 的 。 

另 一 个 影响 交换 机 性 能 的 因素 是 到 达 输 入 端口 的 分 组 长 度 。 对 于 一 全 ATM 交换 机 来 
说 ， 这 通常 不 成 问题 ， 因 为 所 有 分 组 〈 信 元 ) 的 长 度 相等 。 但 对 于 以 太 网 交换 机 或 IPH 
由 器 来 说 ， 分 组 可 能 具有 差异 很 大 的 长 度 。 交 换 机 必须 执行 的 一 些 操作 对 每 个 分 组 都 有 固 
定 的 开销 ， 因 此 ， 根 据 到 达 的 所 有 分 组 都 很 短 、 都 很 长 或 有 长 有 短 的 情况 ， 交 换 机 的 执行 
可 能 有 所 不 同 。 由 于 这 个 原因 ， 所 以 对 于 转发 变 长 分 组 的 路 由 器 和 交换 机 来 说 ， 除 了 用 比 
特 每 秒 的 吞吐 量 描述 它们 的 性 能 外 ， 还 可 以 用 分 组 每 秒 〈packet per second, pps) 的 传输 
率 来 描述 。pps 通常 用 最 小 长 度 的 分 组 来 测量 

对 于 上 面 的 讨论 ， 首 先 需 要 注意 的 一 点 是 交换 机 的 吞吐 量 是 其 通信 量 的 函数 。 交 换 机 
的 设计 者 们 花费 大 量 时 间 所 做 的 事情 之 一 就 是 试图 提出 一 个 能 够 模拟 实际 数据 通信 行为 的 
通信 量 模型 。 事 实证 明 获 得 精确 的 通信 量 模型 是 非常 困难 的 。 一 个 通信 量 模型 试图 解决 的 
儿 个 最 主要 问题 是 : 四 分 组 何 时 到 这? 加 它们 顶 定 从 哪个 输出 上 发 送出 去 ? 加 它们 有 
多 大 ? 

”通信 重建 模 是 一 门 和 成 熟 的 科学 ， 尤 其 在 电话 领域 是 非常 成 功 的 ， 它 使 电话 公司 能 名 
设计 网 络 以 有 效 地 传输 预期 的 负载 。 部 分 原因 是 由 于 人 们 使 用 电话 网 络 的 习惯 并 不 因 时 间 
的 推移 而 变化 ， 如 打 电 话 的 频率 、 打 一 次 电话 的 时 间 和 人 们 多 年 来 一 直 保持 在 母亲 节 打 电 
话 的 习惯 。 相 反 ， 计 算 机 通信 的 快速 演变 如 像 Bit Torrent 一 样 的 新 应 用 ) 几乎 可 以 在 
一 夜 之 间 改 变通 信和 量 模 式 ， 这 就 使 有 效 地 对 计算 机 网 络 建 模 变 得 更 加 困难 。 不 过 ， 我 们 在 
本 章 的 后 面 列 出 了 有 关 这 个 主题 的 优秀 书籍 和 文章 。 

为 了 让 你 对 设计 者 必须 关注 的 乔 叶 量 范 围 有 一 个 感性 认识 ， 我 们 来 看 一 台 写 作 时 用 在 
因特网 上 的 高 端 路 由 器 ， 它 可 支持 16 条 OC-768 链 路 ， 其 吞吐 量 接近 640Gbps。 一 合 
640Gbps 的 交换 机 ， 如 果 处 理 64 字 节 的 稳定 分 组 流 ， 每 秒 分 组 传输 率 是 - 

640 X 109 +(64X8)= 1.25X10 pps 


3.4.2 端口 | g 

大 多 数 交 换 机 和 图 3-38 给 出 的 交换 机 结构 在 概念 上 是 相似 的 。 它 们 由 许多 输入 端口 
(input port) 和 输出 端口 (output port) 以 及 一 个 交换 结构 Cabri) 组 成 。 通 常 至 少 有 一 
个 控制 处 理 右 负责 整个 交换 ， 或 者 与 端口 直接 通信 ， 或 者 像 这 里 所 表示 的 那样 通过 交换 结 
爸 进行 交换 。 端 口 与 外 界 通信 ， 它 们 可 能 包含 光纤 的 光 接 收 器 和 激光 发 生 器 、 存 放 等 待 交 





iE A) AE EO DL BACH Re LY HE HF EH BA. 交换 结构 的 工作 非常 简 
单 且 有 明确 定义 ， 当 分 组 出 现时 ， 将 / 
其 发 送 到 正确 的 输出 端口 。 

这 样 ， 端 口 的 任务 之 一 就 是 处 理 
真实 世界 的 复杂 事物 以 便 交换 结构 处 
理 其 中 相对 简单 的 工作 。 例 如 ， 假 设 
交换 机 支持 虚 电 路 通信 模式 。3.1. 2 
节 描 述 的 虚 电路 映射 表 通 常 是 在 端口 
上 。 端 口 维护 当前 使 用 的 虚 电 路 标识 Pe s 
符 表 ， 以 及 有 关 分 组 输出 的 信息 ， 包 a a e eE D 
括 一 个 分 组 应 该 从 每 个 VCI 的 哪个 输出 端口 传输 出 去 和 怎样 重新 映射 才能 确保 在 输出 链 
路 上 的 唯一 性 。 同 样 ， 以 太 网 交换 机 的 端口 存储 以 太 网 地 址 和 输出 端口 之 闻 的 映射 表 (如 
3. 1.4 节 所 述 的 网 桥 转发 表 ) 。 通 常 ， 当 一 个 分 组 从 输入 端口 传送 到 交换 结构 时 ， 端 口 已 
指出 分 组 要 送 往 哪里 ， 端 口 通过 传送 某 种 控制 信息 相应 地 建立 交换 结构 ， 或 为 分 组 附加 足 
够 的 信息 〈 如 输出 端口 号 ) 以 便 网 状 结构 自动 完成 任务 。 只 考察 分 组 携带 的 信息 进行 分 组 
交换 的 交换 结 构 称 作 自 这 路 内 《selfrouting) ， 因 为 它们 不 需要 额外 的 控制 信息 来 为 分 组 
选择 路 由 。 下 面 讨论 自选 路 由 的 交换 结构 的 一 个 例子 。 

输入 端口 是 第 一 个 出 现 性 能 瓶颈 的 地 方 。 输 入 端口 必须 接收 一 个 稳定 分 组 流 ， 分 析 每 

个 分 组 的 首部 信息 来 确定 应 发 送 到 哪个 〈 或 哪些 ) 输出 端口 ， 并 传送 分 组 到 网 状 结构 上 。 
no = 的 首部 类 型 分 析 的 范围 ， 可 以 从 一 个 简单 的 对 某 个 VCI 的 表 查 找 ， 到 检查 首部 中 
很 多 字段 的 复杂 匹配 算法 。 正 是 这 种 操作 类 型 在 平均 分 组 长 度 很 小 时 可 能 会 造成 问题 。 例 
如 ，64 字 节 的 分 组 到 达 连 接 OC-48 (2. 48Gbps) 链 路 的 端口 时 ， 必 须 以 

| 2. 48X10 + (64 8) =4. 83 10° pps | 
的 速率 处 理 分 组 。 换 句 话 说 ， 当 小 的 分 组 尽 可 能 快 地 到 达 这 个 链 路 时 (最 坏 的 情况 是 多 数 
端口 都 进行 处 理 ) ， 输 入 端口 用 大 约 200ns 处 理 每 一 个 分 组 。 
端口 的 另 一 关键 功能 是 缓存 。 可 以 观察 到 ， 缓 存 可 出 现在 输入 端口 ， 也 可 出 现在 输出 
端口 ， 在 网 状 结构 中 也 可 以 有 缓存 (有 时 称 为 内 部 缓存 Cinternal buffering))。 人 简单 的 输 
人 缓存 方法 有 一 些 严 重 的 局 限 性 。 考 查 一 个 用 先进 先 出 栈 (FIFO) 实现 的 输入 缓冲 区 。 
当 分 组 到 达 交 换 机 时 被 放 和 输入 缓冲 区 ， 然 后 交换 机 试图 把 每 一 个 FIFO 栈 中 的 第 一 个 分 
组 转发 到 相应 的 输出 端口 。 然 而 ， 如 果 几 个 不 同 输入 端口 上 的 第 一 个 分 组 都 要 同时 从 一 个 
输出 端口 输出 ， 那 么 它们 之 中 只 能 有 一 个 被 转发 ， 其 余 的 分 组 必须 留 在 输入 缓冲 区 9 。 

这 种 特性 的 缺点 是 那些 滞留 在 输入 缓冲 区 前 面 的 

分 组 阻碍 缓冲 区 后 面 的 分 组 传送 到 它们 指定 的 输出 











> 端口 1 
上 ， 尽 管 这 些 输出 之 间 没有 争 用 。 这 种 现象 称 为 队列 ae 
头 阻塞 (head-of-line blocking), H] 3-39 给 出 一 个 简 errr Ea 
单 的 队列 头 阻塞 的 例子 ， 其 中 我 们 看 到 竞争 端口 2 的 | 

分 组 产生 阻塞 ， 阻 碍 了 后 面 的 一 个 希望 从 端口 1 输出。 图 3-39 简单 的 队列 头 阻塞 


日 ”对 于 一 个 简单 的 输入 缓冲 交换 机 ， 一 次 只 有 一 个 分 组 能 发 送 到 给 定 的 输出 端口 。 可 以 设计 多 个 交换 机 来 实现 
一 次 转发 多 个 分 组 到 同一 个 输出 端口 ， 但 鉴于 更 高 的 交换 复杂 性 所 带 来 的 消耗 ， 会 对 转发 分 组 数量 设置 上 限 。 


AE 


146 | RIF 








的 分 组 。 它 表明 当 通 信 量 均匀 分 布 在 各 个 输出 时 ， 队 列 头 阻塞 把 输入 缓存 交换 机 中 的 吞吐 
量 限制 在 最 大 理论 值 〈 交 换 机 链 路 带宽 的 总 和 ) 的 59%。 因 此 ， 大 多 数 交 换 机 采用 纯粹 的 
输出 缓存 技术 ， 或 内 部 缓存 和 输出 缓存 混合 的 形式 。 这 些 依 赖 输 入 缓冲 区 的 技术 使 用 成 熟 
的 缓存 管理 方案 来 避免 队列 头 阻塞 。 

缓冲 区 实际 上 执行 更 复杂 的 任务 ， 而 不 仅仅 是 保存 等 待 传输 的 分 组 。 缓 冲 区 是 交换 机 


时 延 的 主要 根源 ， 也 是 由 于 缺少 存放 分 组 的 空间 而 使 分 组 多 半 会 被 丢弃 的 地 方 。 因 此 ， 绥 
冲 区 是 决定 交换 机 服务 质量 特性 的 主要 方面 。 例如， 如 果 一 个 分 组 沿 着 有 延迟 保证 的 VC 
被 发 送出 去 ， 则 它 不 能 容许 在 缓冲 区 湾 留 太 长 时 间 。 这 意味 着 在 一 般 情 况 下 必须 使 用 符合 较 
宽 QoS 要 求 范围 的 分 组 调度 和 丢弃 算法 来 管理 缓冲 区 。 我 们 在 第 6 章 进一步 讨论 这 个 问题 。 








说 ， 只 了 解 一 个 交换 机 的 交换 结构 的 高 级 特性 就 足够 了 。 交 换 机 网 状 结构 应 当 能 用 最 小 的 
延迟 把 分 组 从 输入 端口 移 到 输出 端口 ， 并 且 是 一 种 能 满足 交换 机 吞吐 量 目标 的 方式 。 这 通 
常 意味 着 交换 结构 呈现 一 定 的 并 行 度 。 有 个 端口 的 高 性 能 交换 结构 常常 可 以 同时 从 它 的 
每 个 输入 端口 把 分 组 移 到 一 个 输出 端口 。 交 换 结构 类 型 的 实例 如 下 ， | | 
。 共享 总 线 (Shared-Bus)， 像 上 面 描述 的 ， 这 是 一 种 把 传统 工作 站 用 作 交 换 机 时 的 
”一 种 交换 结构 。 因 为 总 线 的 带宽 决定 交换 机 的 吞吐 量 ， 所 以 高 性 能 的 交换 机 通常 
有 专门 设计 的 总 线 而 不 是 PC 用 的 标准 总 线 。 ete gg 8 | 
。 共享 内 存 (Shared-Memory): 在 共享 内 存 交 换 机 中 ， 分 组 由 输入 端口 写 进 内 存 的 
一 个 地 方 ， 然 后 由 输出 端口 从 内 存 读 出 ， 这 里 存储 器 的 带宽 决定 交换 机 的 吞吐 量 。 
所 以 在 这 种 设计 中 通常 使 用 容量 大 和 速度 快 的 存储 器 。 共 享 内 存 交 换 机 和 共享 总 
线 交 换 机 相 比 ， 除 了 使 用 专门 设计 的 高 速 内 存 总 线 代 替 I0 总 线 外 ， 在 原理 上 是 
相似 的 。 | 7 
。 纵横 式 〈Crossbar) :纵横 式 交 换 机 是 一 个 能 配置 成 
任 一 输入 端口 和 任 一 输出 端口 都 有 相连 路 径 的 矩阵 。 
图 3-40 给 出 一 个 4X4 纵 横 式 交换 机 。 最 简单 的 纵 
模式 交换 机 的 主要 问题 是 ， 需 要 每 个 输出 端口 能 
立即 从 所 有 输入 端口 接收 分 组 ， 这 意味 着 每 个 端口 
要 有 一 个 带宽 等 于 总 交换 知 叶 量 的 存储 器 。 在 实际 
中 ， 要 解决 这 个 问题 一 般 需 要 更 复杂 的 设计 (例如 ， 
参见 本 章 最 后 “扩展 阅读 ”中 的 淘汰 式 (Knockout) 
交换 机 和 McKeown 的 虚拟 输出 缓冲 方法 ) 。 
。 自选 路 由 (Self-routing): 前 面 提 到 ， 自 选 路 由 交换 
结构 依赖 于 分 组 首部 的 某 些 信息 将 每 个 分 组 发 往 正 | 
确 的 输出 端口 。 通 常 ， 在 输入 端口 ， 在 确定 一 个 分 组 发 往 的 输出 端口 后 ， 一 个 特 
别 的 “自选 路 由 首部 ”被 加 到 分 组 上 (如 图 3-41 所 示 )， 这 个 额外 的 首部 在 分 组 离 
开交 换 机 前 被 删除 。 自 选 路 由 交换 结构 通常 由 大 量 非常 简单 的 2X2 交换 单元 按 规 
则 的 模式 互联 而 成 ， 如 图 3-42 所 示 的 榕树 (banyan) 交换 网 状 结构 。 自 选 路 由 网 
状 结构 设计 的 例子 参见 本 章 最 后 的 “扩展 阅读 ”。 





图 3-40 — 6 4X4 纵横 式 交 换 机 
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\ 
自由 路 由 首部 
b) 输入 端口 携带 自选 路 由 分 组 首部 并 指引 分 组 到 正确 的 输出 端口 





c) 分 组 离开 交换 机 时 日 选 路 由 首部 在 输出 端口 被 删除 


图 3-41 为 了 使 交换 结构 把 分 组 发 到 正确 的 输出 端口 ， 一 个 自选 路 
由 首部 在 输入 端口 被 加 到 分 组 上 ， 最 后 被 输出 端口 删除 


自选 路 由 交换 结构 存在 于 大 多 数 可 扩展 性 网 状 结构 
的 设计 方法 中 ， 而 且 对 这 个 主题 有 大 量 的 研究 , “扩展 阅 
读 ” 中 列 出 了 一 些 。 许 多 自选 路 由 交换 结构 如 图 3- 42 所 
示 ， 由 2X2 交换 单元 规则 地 互联 组 成 。 例 如 ， 在 榕树 
网 络 中 的 2X2 交换 单元 执行 一 个 简单 的 任务 : 它们 检 
查 每 个 分 组 首部 的 一 个 二 进 制 位 ， 如 果 它 是 0 就 把 分 组 
送 到 上 面 的 端口 ， 是 1 就 把 分 组 送 到 下 面 的 端口 。 显 
然 ， 如 果 两 个 分 组 同时 到 达 同 一 个 榕树 单元 ， 并 且 它 们 
这 一 位 的 值 也 相同 ， 那 么 它们 将 被 送 到 同一 个 输出 端 
口 ， 冲 突 就 会 发 生 。 预 防 和 处 理 这 种 冲突 是 自选 路 由 交 
换 机 设计 的 一 个 主要 挑战 。 榕 树 网 络 很 巧妙 地 安排 了 一 
个 2X2 交换 单元 阵列 ， 使 得 在 分 组 按 升 序 排列 的 情况 
下 ， 它 能 把 所 有 分 组 无 冲突 地 发 送 到 正确 的 输出 端口 。 | | 

从 图 3-42 所 示 的 例子 中 我 们 可 以 了 解 它 是 如 何 工作 的 ， 这 里 自选 路 由 首部 包含 的 输 
出 端口 号 以 二 进 制 编码 。 第 一 列 的 交换 机 单元 将 检查 位 于 自选 路 由 首部 中 输出 端口 号 的 最 
高 有 效 位 ， 如 果 为 0 则 向 上 路 由 分 组 ， 为 1 则 向 下 路 由 分 组 。 第 二 列 的 交换 机 单元 检查 首 
部 中 的 第 二 位 ， 最 后 一 列 的 交换 单元 将 检查 最 后 一 个 有 效 位 。 从 这 个 例子 中 可 以 看 到 ， 分 





图 3-42 ”通过 榕树 网 络 进行 分 组 
路 由 。3 位 的 数字 表示 四 个 
接收 到 的 分 组 首部 的 值 


组 被 无 冲突 地 传送 到 正确 的 目的 端口 。 注 意 从 第 一 列 交换 单元 的 上 方 输出 的 分 组 怎样 到 达 
网 络 的 上 半 部 分 ， 这 样 ， 使 用 端口 号 为 0 一 3 的 分 组 正确 进入 网 络 的 一 半 部 分 ， 第 二 列 又 
”使 分 组 正确 进入 网 络 的 四 分 之 一 部 分 ， 最 后 一 列 使 分 组 传送 到 正确 的 输出 端口 。 巧 妙 之 处 
是 交换 单元 的 结构 编排 避免 了 冲突 。 在 网 络 开始 部 分 的 编排 方式 使 用 了 “完全 混合 ”的 布 
线 模式 。 要 使 用 榕树 网 络 建立 完整 的 交换 网 状 结构 需要 一 个 附加 的 部 分 ， 它 用 于 在 分 组 送 
到 榕树 网 络 之 前 对 它们 进行 排序 。Batcher- 榕 树 交 换 机 的 设计 是 这 种 方法 的 一 个 著名 的 例 
子 。Batcher 网 络 也 是 由 规则 的 2X2 交换 单元 互联 组 成 ， 用 来 把 分 组 按 降 序 排列 。 分 组 在 
离开 Batcher 网 络 时 ， 将 被 送 到 正确 的 输出 端口 ， 使 得 它们 在 榕树 网 络 中 不 发 生 冲 突 。 

交换 机 设计 中 一 个 有 意思 的 事情 是 用 相同 的 基本 技术 可 以 制造 出 类 型 很 不 相同 的 交换 
机 。 例 如 ， 本 章 讨论 的 以 太 网 交换 机 和 ATM 交换 机 ， 以 及 下 一 章 讨论 的 因特网 路 由 器 ， 
都 是 用 本 节 给 出 的 设计 思想 建立 的 。 


3.4.4 路 由 器 的 实现 


我 们 已 经 看 到 了 建造 一 台 交 换 机 的 多 种 方法 ， 从 一 个 有 适当 数目 的 网 络 接口 的 通用 工 
作 站 到 某 些 复杂 的 硬件 设计 。 一 般 来 说 ， 建 造 路 由 器 也 有 同样 的 选择 范围 ， 大 多 数 情 况 如 
图 3-43 所 示 。 控 制 处 理 器 负责 运行 路 由 协议 并 通常 充当 路 由 器 控制 的 核心 。 交 换 网 状 结 
构 将 分 组 从 一 个 端口 传送 到 另 一 个 端口 ， 就 像 在 交换 机 中 一 样 ， 而 端口 提供 的 功能 是 允许 
路 由 器 与 各 种 类 型 的 链 路 〈 如 以 太 网 、SONET 等 ) 连接 。 





图 3-43 路 由 器 框图 


关于 路 由 器 设计 与 交换 机 设计 之 间 的 不 同 之 处 ， 有 几 点 值得 注意 。 首 先 ， 路 由 器 必须 

能 够 处 理 可 变 长 度 的 分 组 ， 这 个 限制 不 适用 于 ATM 交换 机 ， 但 无 疑 适 用 于 以 太 网 或 帧 中 

继 交 换 机 。 实 际 上 很 多 高 性 能 的 路 由 器 都 被 设计 成 基于 信 元 的 交换 结构 。 在 这 种 情况 下 ， 

器 口 必须 能 够 将 可 变 长 度 的 分 组 转换 为 信 元 ， 并 再 由 信 元 转换 为 分 组 。 这 就 是 分 割 和 重组 
(SAR), Æ ATM 网 络 适配器 中 同样 要 面 对 这 一 问题 。 

可 变 长 度 的 IP 数据 报 所 产生 的 另 一 个 影响 是 使 得 描述 路 由 器 的 性 能 比 描述 只 转发 信 

元 的 交换 机 的 性 能 更 为 困难 。 路 由 器 通常 能 在 每 秒 钟 之 内 转发 固定 数目 的 分 组 ， 这 意味 

着 ， 按 比 特 / 秒 衡 量 的 总 吞吐 量 依赖 于 分 组 大 小 。 路 由 器 设计 者 通常 需要 选择 在 线 速率 

rate) 下 文 持 的 分 组 长 度 。 也 就 是 说 ， 如 果 pps (分 组 / 秒 ) 是 到 达 一 个 特定 端口 的 分 

能 够 被 转发 的 速率 ， 人 那么 按 比 特 计算 的 

ric 满足 . 
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packetsize X pps=linerate 

这 就 是 在 线 速率 下 路 由 器 能 转发 的 分 组 大 小 。 对 较 长 的 分 组 很 可 能 维持 线 速率 ， ieee 
的 分 组 则 不 可 能 。 有 时 候 ， 设 计 者 可 能 决定 支持 的 合适 分 组 尺寸 为 40 字 节 ， 因 为 这 是 

有 :TCP' 首 部 的 -IP 分 组 的 最 水 尺 囊 吉 男 一 个 选择 可 能 是 预期 的 平均 分 组 尺 直 ,可 通过 研究 
网 络 通信 和 量 的 轨迹 来 确定 。 例 如 ， 因 特 网 主干 网 的 衡量 标准 建议 平均 IP 分 组 大 约 为 300 
字 节 。 然 而 ， 当 遇 到 一 长 串 短 分 组 时 ， 路 由 器 就 跟 不 上 这 个 速度 ， 并 可 能 开始 丢弃 分 组 ， 
从 统计 上 看 ， 这 种 情况 时 有 发 生 ， 如 果 在 路 由 器 遭 到 主动 攻击 时 ( 见 第 8 章 》 则 是 很 有 可 
能 的 。 此 类 设计 在 很 大 程度 上 依赖 于 成 本 考虑 和 路 由 器 预期 的 应 用 。 

在 执行 转发 IP 分 组 任务 时 ， 路 由 器 可 大 致 描述 为 具有 集中 式 (centralized) 或 分 布 式 
(distributed) 特征 的 转发 模型 。 在 集中 式 模型 中 〈 如 本 节 先 前 所 述 ) IP 转发 算法 在 一 个 
处 理 所 有 端口 通信 量 的 单一 处 理 引擎 中 完成 。 在 分 布 式 模型 中 有 多 个 处 理 引 擎 ， 可 能 每 个 
端口 一 个 ， 更 常见 的 情况 是 每 个 线 卡 一 个 ， 这 里 一 个 线 卡 可 以 是 一 个 或 多 个 物理 端口 服 
务 。 每 种 模型 各 有 其 优 缺 点 。 在 同等 条 件 下 ， 因 为 分 布 式 转发 模型 在 整体 上 有 更 强 的 处 理 
能 力 ， 所 以 总 的 看 来 通过 路 由 器 每 秒 可 转发 更 多 分 组 。 但 是 ， 分 布 式 处 理 模 型 也 使 软件 体 
系 结构 更 加 复杂 ， 因 为 每 个 转发 引擎 通常 都 需要 一 份 自己 的 转发 表 副本 ， 这 就 使 控制 处 理 
器 需要 保证 始终 及 时 地 更 新 转发 表 。 

路 由 器 实现 路 由 与 交换 机 转发 有 很 大 的 不 同 ， 另 一 _ 方面 的 因素 是 IP 转发 算法 本 身 ， 
在 网 桥 与 大 部 分 ATM 交换 机 中 ， 转 发 算法 只 包含 在 转发 表 中 寻找 固定 长 度 的 ID (MAC 
地 址 或 者 VCD 、 寻 找 正确 的 输出 端口 以 及 发 送 包 到 这 个 端口 。 我 们 在 3. 2. 4 节 已 经 看 到 ， 
下 转发 算法 更 复杂 ， 部 分 原因 是 当 转 发 分 组 大 小 是 在 8 比特 到 32 比特 浮动 而 不 是 固定 值 
时 ， 转 发 一 个 分 组 需要 进行 相应 的 检验 。 

因为 IP 转发 算法 的 高 复杂 性 ，IP 路 由 器 的 很 多 发 展 阶段 都 致力 于 突破 基本 性 能 限制 。 
然而 ， 当 我 们 讨论 本 章 “ 扩 展 阅读 ”的 时 候 ， 仍 然 可 以 看 到 很 多 近年 来 提出 的 IP 转发 创新 
方法 ， 在 本 书写 作 期 间 出 现 了 可 以 每 个 接口 转发 40Gbps IP 流量 的 商用 路 由 器 。 在 整合 了 
很 多 高 性 能 IP 转发 引擎 和 多 种 在 3.4 节 介 绍 的 可 扩展 交换 网 后 ， 就 可 以 建造 具有 工 
(Terabits〉 级 别 吞吐 量 的 路 由 器 。 这 足以 满足 我 们 数 年 后 的 因特网 流量 增长 情况 。 

另 一 种 路 由 实现 方面 的 有 趣 的 技术 是 网 络 处 理 器 (network processor)。 网 络 人 处 理 侨 
是 可 编程 的 标准 工作 站 或 PC 处 理 器 ， 但 是 针对 网 络 任务 做 了 更 高 的 优化 。 例 如 ， 网 络 处 
理 器 可 以 有 特别 适 于 执行 IP 地 址 查找 或 计算 IP 数据 报 校 验 和 的 指令 。 这 些 设备 可 以 用 于 
路 由 器 和 其 他 网 络 设备 中 〈 如 防火 墙 ) 。 | | 
| 关于 网 络 处 理 器 ， 人 们 正在 争论 的 有 趣 问题 之 一 是 它 能 否 比 其 他 设备 做 得 更 好 。 例 

如 ， 如 果 由 于 庞大 工业 的 推动 ， 传 统 处 理 器 性 能 不 断 地 显著 提高 ， 那 么 ， 网 络 处 理 器 能 跟 
上 步伐 吗 ? 还 有 ， 一 个 追求 通用 性 的 服务 设备 ， 能 比 定制 设计 的 ASIC 〈 特 定 应 用 集成 电 
路 ， 如 只 进行 IP 转发 而 不 做 其 他 工作 ) 做 得 更 好 吗 ? 对 这 些 问题 的 部 分 回答 取决 于 什么 
叫 “做 得 更 好 >。 例 如 ， 我 们 总 是 需要 权衡 硬件 成 本 、 推 向 市 场 的 时 间 、 人 性 能 和 灵活 性 这 
些 因素 ， 灵 活性 是 指 路 由 器 建造 出 来 之 后 改变 其 所 支持 功能 的 能 力 。 在 本 章 余 下 部 分 及 后 
面 几 章 中 ， 我 们 会 看 到 对 路 由 器 功能 的 需求 是 如 何 变化 的 。 在 可 预见 的 将 来 会 存在 广泛 的 
路 由 器 设计 ， 而 且 网 络 处 理 器 也 会 扮演 某 种 角色 。 
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5 小 结 


“本 童 开始 讨论 通过 在 互联 链接 和 网 络 中 使 用 交换 机 和 路 由 器 来 构造 一 个 可 扩展 的 和 异 
构 的 网 络 时 所 涉及 的 问题 。 ee ee 
局 域 网 交换 机 或 网 桥 使 用 原 地 址 学 习 技 术 来 改进 转发 效率 ， 使 用 生成 树 算法 避免 辐 环 。 
些 交 换 机 被 大 量 用 于 数据 中 心 、 学 校 及 公司 的 网 络 中 。 

对 于 异 构 网 络 ， 网 际 协 议 CIP) 的 发 明 形 成 了 今天 的 路 由 器 。 卫 为 网 络 互联 定义 了 一 
个 简单 通用 的 服务 模型 ， 这 个 模型 基于 尽力 而 为 的 IP 分 组 传输 而 建立 ， 致 力 于 解决 异 构 
网 络 问题 。 这 种 服务 模型 的 一 个 重要 部 分 是 全 局 地 址 问题 ， 即 为 了 相互 间 数 据 交换 目的 而 
使 互联 网 中 任意 两 个 节点 可 以 相互 分 辨 。IP 服务 模型 的 简单 程度 使 其 得 到 了 所 有 已 知 的 
网 络 技术 支持 ， 且 ARP 机 制 也 被 用 于 全 局 IP 地 址 到 当地 链 路 层 地 址 的 翻译 工作 。 

网 络 互联 的 一 项 重要 工作 是 决定 互联 网 中 到 达 任 意 目 的 地 的 有 效 路 由 问题 。 互 联网 路 
由 算法 用 分 布 式 方法 解决 这 个 问题 。 本 章 在 应 用 实例 CRIP 和 OSPF 中 介绍 两 大 类 算 
法 一 一 链 路 状态 算法 和 距离 向 量 算法 。 | | 

交换 机 和 路 由 器 都 需要 以 一 个 较 高 的 速率 从 输入 端 到 输出 端 来 转发 分 组 ， 在 有 些 情 况 
下 ， 交 换 机 需要 扩大 容量 来 容纳 几 百 个 或 几 千 个 端口 。 由 于 争 用 问题 ， 以 可 接受 的 代价 建 
造 大 规模 的 高 性 能 交换 机 是 非常 复杂 的 ， 因此 交换 机 通常 采用 专用 的 硬件 而 不 是 通 用 的 工 
作 站 来 构造 。 


接 下 来 会 发 生 什么 : 未 来 因特网 


因特网 无 疑 是 一 个 巨大 的 成 功 ， 很 容易 使 我 们 忘记 曾经 有 不 存在 因特网 的 时 候 . 4 
而 ， 圈 于 网 络 的 可 用 程度 ， 因 特 网 的 发 明 者 只 对 其 进行 了 部 分 开发 。 比 如 电路 交换 电话 网 
并 不 适合 因特网 的 需要 。 当 前 的 因特网 正如 20 世纪 60 年 代 的 电话 网 一 样 被 人 为 建立 了 。 
那么 就 可 以 问 ， 互联 网 之 后 会 是 什么 ? 

没有 人 当时 就 能 知道 问题 的 答案 ， 但 一 些 著 名 的 研究 正 努力 使 某 些 “未 来 因特网 ”成 
为 可 能 。 现 在 很 难 想象 当前 的 因特网 会 在 很 短 的 将 来 被 某 种 东西 取代 〈 尽 管 如 此 ， 电 话 网 
络 仍然 存在 ， 增 加 了 传输 流量 并 转移 于 互联 网 上 )。 如 果 能 够 超越 当今 网 络 增 量 部 署 思维 
的 限制 ， 就 可 以 使 一 些 创新 成 为 可 能 ， 不 然 我 们 就 会 错过 创新 。 在 这 种 情况 下 非常 流行 谈 
论 “ 清 白 ” 的 研究 。 这 种 研究 着 眼 于 如 果 我 们 能 从 头 开始 的 话 会 出 现 什么 可 能 ， 并 出 于 对 
未 来 的 考虑 而 推迟 部 署 。 | | 

例如 ， 如 果 我 们 假设 因特网 上 的 每 个 节点 都 是 移动 的 呢 ? 我 们 可 能 会 开始 用 一 种 不 同 
的 方式 确定 节点 而 不 是 IP 地址， 包括 将 什么 样 的 网 络 节点 连接 到 目前 的 信息 ， 我 们 可 能 
会 使 用 一 些 其 他 形式 的 标识 符 。 或 者 ， 作 为 另 一 个 例子 ， 我 们 可 能 会 考虑 把 目前 因特网 建 
成 一 个 不 同 的 信任 模型 。 当 因特网 最 初 被 开发 时 ， 它 似乎 有 理由 默认 每 台 主 机 应 能 发 送信 
息 给 所 有 其 他 主机 。 但 在 如 今 这 个 垃圾 邮件 、 钩 鱼 者 和 拒绝 服务 攻击 者 的 世界 里 ， 人 们 可 
能 会 考虑 不 同 的 对 新 连接 或 未 知 节点 具有 更 多 受 限 初始 能 力 的 信任 模型 。 这 两 个 例子 说 
明 ， 正 如 当前 我 们 知道 一 些 在 20 世纪 70 年 代 没有 出 现 的 事情 〈 如 网 络 的 移动 性 和 安全 的 
重要 性 ) 一 样 ， 我 们 可 能 要 为 互联 网 拿 出 非常 不 同 的 设计 。 | | 

这 里 可 以 指出 一 些 观点 。 首 先 ， 你 不 应 该 假设 互联 网 已 经 完成 了 ， 其 体系 结构 是 可 以 
灵活 继承 且 将 持续 发 展 的 。 在 下 一 章 里 我 们 将 看 到 一 些 互联 网 演变 的 例子 。 另 一 点 是 有 很 
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多 种 方法 可 用 于 网 络 研究 ， BIT RY, (TEA H 
拉克 的 话 ,，“ 设 想 未 来 ， 可 以 促进 当前 的 进步 ”， E N O39 
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大 量 关 于 互联 网 不 同方 面 的 文章 ，Cerl 和 Kahn 的 文章 是 最 早 介 绍 TCP/IP 体系 结构 并 因 
其 历史 价值 而 值得 阅读 的 。 最 后 ， 关 于 诸多 路 由 器 设计 文章 中 的 一 篇 ，McKeown 的 文章 
描述 一 种 内 部 使 用 信 元 的 交换 机 设计 方法 ， 这 种 方法 已 成 为 商用 的 作为 高 性 能 路 由 器 转发 
” 变 长 分 组 的 基础 。 | 
e Perlman, R. An algorithm for distributed computation of spanning trees in an Ek 
tended LAN. Proceedings of the Ninth Data Communications Symposium, Pages 
44-53, September 1985. 

e. Cerf, V., and R. Kahn. A protocol for packet network intercommunication. [EEE 
Transactions on Communications COM-22. (5): 637-648, May 1974. 

e McKeown, N. The ¿SLIP scheduling algorithm for input-queued switches. IEEE 
Transactions on Networking 7 (2): 188-201, April 1999. 

在 Perlman 的 另 一 著作 [Per00] 中 可 以 发 现 有 关 网 桥 和 路 由 器 的 精彩 综述 。 这 里 也 
有 丰富 的 关于 ATM 的 文章 ，ATM 的 先驱 Turner [Tur85] 最 早 提出 将 基于 信 元 的 网 络 用 
于 集成 服务 模型 。 

很 多 当前 因特网 的 核心 技术 和 协议 都 在 意见 征求 文档 RFO 中 描述 子 网 划分 在 Mo- 
gul 和 Poste [MP85 | 中 描述 ，CIDR 在 Fuller 和 Li [FLO6] PH, RIP 第 二 版 在 Malkin 
[Mal98] FX, OSPF 在 Moy [Moy98] 中 定义 。 长 达 200 页 的 OSPF 规范 是 最 长 的 RCF 
之 一 ， 但 也 包含 众多 不 同 寻 常 的 关于 如 何 实现 一 个 协议 的 内 容 。 避 免 IP 碎片 的 原因 被 Kent 
和 Mogul [KM87 | 验证 ， 路 径 MTU 发 现 技 术 由 Mogul 和 Deering | MD90] 描述 。 

一 篇 关于 未 来 互联 网 的 前 脆性 研究 文章 是 由 Clark 等 人 发 表 的 LTCPB 05j。 这 篇 文章 
与 正在 进行 的 研究 工作 都 是 围绕 未 来 互联 网 的 ， 下 面 我 们 将 为 此 提供 更 多 的 参考 。 

有 关 交 换 机 结构 已 发 表 了 上 千 篇 文 章 。 早 期 很 好 地 解释 Batcher 网 络 的 一 篇 文章 毫 无 
疑问 是 Batcher 自己 写 的 [Bat68]。 排 序 网 络 是 由 Drysdale 和 Young [DY75] 解释 的 ， 而 
一 种 有 趣 的 纵横 交换 形式 由 Yeh 等 [YHA87」 描述 。Giacopelli 等 | GHMS91 | 摘 述 了 
“阳光 ”交换 机 ， 这 篇 文章 对 交换 机 设计 中 的 流量 分 析 提 供 了 深入 的 见解 。 特 别 是 “阳光 ” 
交换 机 设计 师 首 先 认识 到 信 元 有 可 能 突 发 性 到 达 交 换 机 ， 从 而 影响 了 他 们 的 设计 思路 。 在 
Robertazzi [Rob93] 中 可 以 找到 对 不 同 交换 机 网 状 结构 性 能 的 出 色 综 述 。 基 于 可 变 长 度 分 
组 交换 机 设计 的 一 个 例子 可 以 在 Gopal 和 Guerin LGG94 | 中 找到 。 

已 经 有 大 量 的 工作 旨 在 开发 可 用 于 路 由 器 的 快速 查找 P 地 址 的 算法 〈 回 想 一 下 路 由 天 
需要 匹配 转发 表 的 最 长 前 级 的 问题 ) PATRICIA 树 是 最 早 应 用 于 此 类 问题 的 算法 [Mor68] 
更 多 最 近 的 工作 见 [DBCP97]、[WVTP97]、[LS98]、[SVSM98] 和 [EVD04] 中 的 报道 。 
阅读 Partridge 等 [Par98] 的 工作 可 以 概览 此 类 算法 如 何 用 于 构建 高 速 路 由 器 。 

光纤 网 本 身 就 是 一 个 丰富 的 研究 领域 ， 它 有 自己 的 期 刊 、 会 议 等 。 我 们 推荐 Ra- 
maswami 等 [RS01] 作为 这 个 领域 一 篇 很 好 的 介绍 性 文章 。 

如 果 想 了 解 有 关 网 络 性 能 的 数学 分 析 ， 那 么 就 该 读 由 ARPANET 的 先驱 者 之 一 
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Kleinrock 写 的 一 篇 优秀 著作 [Kle75]。 关 于 分 组 交换 中 应 用 排队 理论 已 发 表 了 很 多 文章 。 
我 们 推荐 Paxson 和 Floyd 的 文章 [PF94]， 重 点 介绍 对 因特网 的 重大 贡献 ， 并 推荐 由 Le- 
land 等 人 写 的 一 篇 文章 [LTWW94]， 介 绍 有 关 “远程 依 赖 ” 的 重要 概念 并 说 明 许 多 通信 
量 建 模 的 传统 方法 的 不 足 之 处 。 S í 
最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 
。 http://www. nets-find. net/; 美国 国家 自然 科学 基金 关于 “未 来 互联 网 设计 ”研究 
的 网 站 。 
o http://www. geni. net/; 描述 GENI 网 络 实验 床 的 网 站 ， 人 允许 创建 一 些 之 前 提 到 的 
“清白 ”研究 的 地 方 。 


习题 


1. 使 用 图 3-44 给 出 的 网 络 ， 在 建立 以 下 连接 之 后 ， 给 出 所 有 交换 机 的 虚 电 路 表 。 假 设 连接 的 序列 是 累积 
的 ， 即 建立 第 二 个 连接 时 第 一 个 连接 仍 未 断 开 ， 以 此 类 推 。 同 时 ， 假 设 VCI 的 分 配 始终 选用 每 条 链 路 
上 最 低 的 未 使 用 VCI， 从 0 开始 。 


Ca) 主机 A 连接 到 主机 C。 (b) 主机 DD 连接 到 主机 B. 
(c) 主机 D 连接 到 主机 I, Cd) 主机 A 连接 到 主机 B. 
Ce) 主机 下 连接 到 主机 J。 Cf) 主机 H 连接 到 主机 A. 


as ziur 





i 主机 I 
图 3-44 习题 1 和 习题 2 的 网 络 例子 


v 2. 使 用 图 3- 44 给 出 的 网 络 ， 在 建立 以 下 连接 之 后 ， 给 出 所 有 交换 
机 的 虚 电路 表 。 假 设 连接 的 序列 是 累积 的 ， 即 建立 第 二 个 连接 
时 第 一 个 连接 仍 未 断 开 ， 以 此 类 推 。 同 时 ， 假 设 VCI 的 分 配 始 
终 选用 每 条 链 路 上 最 低 的 未 使 用 VCI， 从 0 开始 。 





(a) 主机 D 连接 到 主机 H. (b) 主机 B 连接 到 主机 G. 
Cc) 主机 下 连接 到 主机 A. (O 主机 H 连接 到 主机 C 
Ce) 主机 工 连接 到 主机 E, HO 主机 H 连接 到 主机 J。 


3. 对 图 3-45 中 给 出 的 网 络 ， 给 出 每 个 节点 的 数据 报 转发 表 。 链 路 ” 图 3-45 习题 3 的 网 络 
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上 标 有 相应 的 成 本 ， 你 的 表 应 经 由 最 小 成 本 的 路 径 把 每 个 分 组 转发 到 目的 地 。 

给 出 图 3-46 中 SI 一 S4 交换 机 的 转发 表 。 每 台 交 换 机 应 该 有 一 个 默认 路 由 记录 ， 用 来 把 未 识别 目的 地 

址 的 分 组 转发 到 OUT。 任 何 与 默认 记录 相 重 复 的 特定 目的 地 表 记 录 应 被 删除 。 

. 考虑 图 3-47 中 的 虚 电 路 交换 机 。 表 3-15 列 出 每 台 交换 机 的 VCI 表 ， 即 与 其 连接 相关 的 〈 端 口 ，VCI) 
对 《或 “VCI， 接 口 》 对) 。 连 接 是 双向 的 。 列 出 所 有 端点 到 端点 的 连接 。 


= 


on 





. 在 3.1.3 节 的 源 路 由 选择 的 例子 中 ， 由 BREW HELE A, RAER B 知道 如 何 到 达 A。 提 出 
一 个 对 传送 机 制 的 修改 方案 使 之 可 逆 ， 机 制 中 不 应 要 求 给 出 所 有 交换 机 的 全 局 唯一 名 字 。 | 
提出 一 个 虚 电 路 交换 机 可 使 用 的 机 制 ， 使 得 如 果 一 台 交 换 机 丢失 有 关连 接 的 所 有 状态 信息 ， 那 么 沿 着 
经 过 那 台 交换 机 的 路 径 上 的 分 组 的 发 送 方 被 通知 该 交换 机 失效 。 | | 
提出 一 个 数据 报 交换 机 可 使 用 的 机 制 ， 使 得 如 果 一 台 交 换 机 丢失 全 部 或 部 分 转发 表 ， 受 到 影响 的 发 送 
方 会 被 通知 交换 机 故障 。 | or | | 
9. 3.1.2 节 描 述 的 虚 电 路 机 制 假设 每 条 链 路 是 点 到 点 的 。 在 链 路 是 共享 介质 〈 例 如 以 太 网 ) 连接 的 情况 
下 ， 扩 展 转发 算法 。 
10. 假设 在 图 3-2 中 已 经 添加 了 一 条 新 链 路 ， 连 接 交换 机 3 的 端口 1 (这 里 是 G) 和 交换 机 1 的 端口 0 
(这 里 是 D) 。 但 没有 向 任何 一 台 交 换 机 通知 这 条 链 路 ， 而 且 交 换 机 3 错误 地 认为 主机 B 经 由 端口 1 是 
可 达 的 。 
(a) 使 用 数据 报 转发 ， 如 果 主 机 A 试图 发 送 消息 给 主机 B， 将 会 发 生 什么 情况 ? 
(b) 使 用 文中 讨论 的 虚 电 路 建立 机 制 ， 如 果 主 机 A 试图 连接 到 主机 B， 将 会 发 生 什么 情况 ? 
11. 给 出 路 径 经 过 某 条 链 路 两 次 的 工作 虚 电路 的 例子 ， 但 是 沿 着 这 条 路 径 发 送 的 数据 报 不 应 产生 无 限 循环 。 
12. 在 3.1.2 节 中 ， 每 台 交 换 机 为 输入 链 路 选择 一 个 VCI 值 。 请 说 明 每 台 交 换 机 也 可 以 为 输出 链 路 选择 
VCI 值 ， 并 且 同 一 个 VCI 值 将 被 每 种 方法 选择 。 如 果 每 台 交换 机 都 选择 输出 VCI， 那 么 在 数据 被 发 
送 前 ， 它 还 需要 等 待 一 个 RTT 吗 ? i | 
13. 对 图 3-48 中 给 出 的 扩展 LAN， 指 出 哪些 端口 不 会 被 生成 树 算法 所 选择 ，。 
v 14. 对 图 3-48 中 给 出 的 扩展 LAN， 假 设 网 桥 B1 遭遇 灾难 性 的 故障 。 指 出 当 经 过 恢复 过 程 并 形成 新 树 后 ， 
哪些 端口 不 会 被 生成 树 算法 所 选择 。 7 | 
15. 考虑 图 3-49 中 给 出 的 学 习 型 网 桥 的 布局 。 假 设 全 部 网 桥 被 初始 化 为 空 ， 给 出 经 过 下 列传 输 后 B1 一 B4 
的 转发 表 : l 
。 A 发 送 到 C。 
。 C 发 送 到 A。 
。D 发 送 到 C。 


D 


~J 


= 


用 从 某 个 端口 直接 到 达 的 唯一 的 邻居 来 识别 那个 端口 ， 就 是 说 ，B1 的 端口 可 被 标记 为 “A” 和 “B2”。 





图 3-48 习题 13 和 习题 14 的 网 络 图 3-49 习题 15 和 习题 16 的 网 络 


v 16. 如 前 一 道 题 ， 考 虑 图 3-49 中 的 学 习 型 网 桥 。 假 设 所 有 网 桥 被 初始 化 为 空 ， 在 经 过 以 下 的 传输 后 ， 给 
出 网 桥 B1 一 B4 的 转发 表 。 
© D RIK Bl C, 
e C 发 送 到 D. 
。 A 发 送 到 C。 | 
17. 考虑 图 3-50 中 的 主机 X、Y、Z、W 和 带 有 初始 化 为 空转 发 表 的 学 习 型 网 桥 B B2, B3. 
(a) 假设 X 发 送 到 W。 哪 个 网 桥 知 道 X 的 位 置 ? Y 的 网 络 接口 见 到 这 个 分 组 了 吗 ? 
(b) 假设 Z 现 在 发 送 到 X。 哪 个 网 桥 知 道 Z 的 位 置 ? Y 的 网 络 接口 见 到 这 个 分 组 吗 ? 
(o) 假设 Y 现在 发 送 到 X。 哪 个 网 桥 知 道 Y 的 位 置 ? Z 的 网 络 接口 见 到 这 个 分 组 吗 ? 
(d 最 后 ,假设 W 发 送 到 YY。 哪个 网 桥 知道 Z 的 位 置 ? W 的 网 络 接口 见 到 这 个 分 组 吗 ? 
18. 给 出 图 3-51 中 的 扩展 LAN 的 生成 树 ， 并 讨论 怎样 解决 任何 平局 问题 。 





图 3-50 “习题 17 框图 图 3-51 习题 18 的 扩展 LAN 


19. 假设 图 3-52 中 的 两 个 学 习 型 网 桥 B1、B2 形成 一 个 环 路 ， 且 不 能 
实现 生成 树 算法 。 每 个 网 桥 保留 一 个 由 〈 地 址 ， 接 口 》 对 组 成 
TES | | | 
(a) 如 果 M 发 送 到 工会 发 生 什么 情况 ? | 
(b) 假设 在 短 时 间 后 工 回答 M。 给 出 导致 来 自 M 的 分 组 和 来 自 工 

的 分 组 以 相反 的 方向 在 环 路 中 循环 的 事件 序列 。 

20. 假设 在 图 3-52 中 M 发 送 给 自己 〈 正 常情 况 下 这 绝 不 会 发 生 ) 。 对 
于 以 下 假设 ,说 明 将 发 生 什么 情况 : | =- 
(a) 网 桥 的 学 习 算法 是 在 搜索 表 中 目的 地 址 之 前 设置 (或 更 新 ) A352 习题 19 和 习题 20 的 环 


EER 





21. 


22. 


28. 
”内 )。 假 设 DMA 用 于 转移 数据 进出 内 存 ， 内 存 带宽 为 2Gbps，1/O 总 线 带 宽 为 1Gbps， 分 组 长 度 为 多 


29. 


* 30. 


* 31. 


3 


N 


30: 


CD 


3 


oe 


30. 


36. 


新 的 〈 源 地 址 ， 接 口 》 记 录 。 
(b) 找到 目的 地 址 之 后 设置 新 的 源 地 址 。 
考虑 图 3- 10 中 的 扩展 LAN。 在 生成 树 算法 中 ， 如 果 网 桥 Bl 不 参与 ， 且 在 下 述 条 件 下 会 发 生 什么 情况 ? 
Ca) 简单 地 转发 所 有 生成 树 算法 消息 。 
b) 丢弃 所 有 生成 树 消息 。 
假设 一 些 中 继 器 (或 集线器 ， 而 不 是 网 桥 被 连接 成 一 个 环 路 。 
(a) 当 有 节点 传输 时 会 发 生 什 么 情况 ? 
(b) 为 什么 生成 树 机 制 很 难 或 不 可 能 在 中 继 器 上 实现 ? 


(co) 提出 一 种 机 制 ， 中 继 器 可 以 检测 环 路 并 关闭 一 些 端口 来 切断 环 路 。 不 要 求 你 的 解决 方案 100% 有 效 。 
. 假设 一 个 网 桥 在 同一 个 网 络 中 连 有 两 个 端口 。 网 桥 怎样 检测 和 纠正 这 种 情况 ? 

. ATM 信 元 首部 占 ATM 链 路 总 带宽 的 百分比 是 多 少 ? 忽略 信 元 填充 或 ATM 适 配 层 首部 。 

. 信 元 转发 方法 〈 如 ATM) 通常 应 用 虚 电路 交换 而 不 是 数据 报 转发 方式 。 给 出 解释 这 一 问题 的 专题 讨 


论 (考虑 过 程 问题 )。 


. 假设 一 个 工作 站 具有 800Mbps 的 1/O 总 线 速度 和 2Gbps 的 内 存 带 宽 。 假 设 直接 内 存 访 问 (DMA) 用 


于 转移 数据 进出 内 存 ， 那 么 基于 这 个 工作 站 的 交换 机 能 处 理 多 少 个 100Mbps 以 太 网 链 路 接口 ? 


. 假设 一 个 工作 站 的 1/O 总 线 速度 为 1Gbps， 内 存 带 宽 为 2Gbps。 如 果 使 用 DMA 对 内 存 进行 存 取 ， 屠 


么 基于 这 个 工作 站 的 交换 机 能 处 理 多 少 个 100Mbps 以 太 网 链 路 接口 ? 
假设 一 台 以 电脑 工作 站 构建 的 交换 机 以 每 秒 500 000 个 的 速度 转发 分 组 ， 不 考虑 分 组 大 小 (在 限制 


少时 总 线 的 带宽 将 成 为 限制 因素 ? 

假设 一 台 交换 机 有 输入 和 输出 FIFO 缓存 。 分 组 到 达 一 个 输入 端口 后 被 插入 到 它 的 FIFO 的 尾部 。 然 

后 交换 机 试图 转发 每 个 FIFO 首部 的 分 组 到 适当 输出 端口 的 FIFO 尾部 。 | 

(a) 解释 在 什么 情况 下 ， 这 样 一 台 交 换 机 会 丢失 发 往 一 个 FIFO 为 空 的 输出 端口 的 分 组 。 

(b) 这 种 行为 叫 作 什么 ? | | 

(c) 假设 FIFO 缓存 可 以 被 自由 地 重新 分 配 ， 提 出 一 个 缓冲 区 改组 过 程 以 避免 上 面 的 问题 ， 并 解释 为 
什么 要 那样 做 。 | 

一 个 nXn 的 榕树 网 络 的 一 级 包括 4/2 个 2X2 交换 单元 。 第 一 级 把 分 组 正确 输入 到 网 络 的 一 半 ， 第 二 

级 把 分 组 正确 送 到 网 络 的 1/4 部 分 ， 如 此 下 去 ， 直 到 所 有 分 组 都 被 输送 到 正确 的 端口 。 推 导 构 造 一 

个 nXn 榕树 网 络 需要 多 少 个 2X2 交换 单元 的 公式 。 用 ”一 8 来 验证 你 的 答案 。 | 

描述 Batcher 网 络 是 如 何 工 作 的 《〈 见 “扩展 阅读 ”一 节 )。 解 释 怎样 才能 把 Batcher 网 络 和 榕树 网 络 结 

合 来 实现 一 个 交换 网 状 结构 。 | 


. 假设 在 全 部 通信 量 介 于 一 台 服 务 器 和 N 台 “ 客 户 端 ” 之 间 的 环境 中 ， 用 一 台 10Mbps 交换 机 替换 一 


台 10Mbps 以 太 网 集线器 (或 中 继 器 ) 。 因 为 所 有 通信 量 仍 需 通过 服务 器 -交换 机 的 链 路 ， 所 以 名 义 上 
没有 改进 带宽 。 

(a) 你 认为 带宽 会 有 任何 改进 吗 ? 如 果 有 ， 为 什么 ? 

Cb) 交换 机 与 集线器 相 比 还 有 那些 优 缺 点 ? 

IP 地 址 的 哪个 方面 使 得 有 必要 给 每 个 接口 分 配 一 个 地 址 ， 而 不 是 给 每 台 主机 分 配 一 个 地 址 ? 根据 你 
WES, Ab IP 能 容忍 点 到 点 的 接口 有 非 唯 一 的 地 址 或 没有 地 址 ? 


. 为 什么 IP 首部 中 的 Offset 字段 要 以 8 字 节 为 单位 来 度量 偏 移 量 ? Gem: M—F, Offset 字段 长 


LOAN 4) 8 i 
有 些 信 令 错误 会 导致 一 个 分 组 中 的 所 有 比特 被 重 写 为 全 0 或 全 1。 假设 分 组 中 的 所 有 比特 〈 包 括 因 特 
网 校 验 和 ) 都 被 重 写 。 一 个 全 0 或 全 1 的 分 组 是 合法 的 IPv4 分 组 吗 ? 因特网 校 验 和 能 捕获 这 样 的 错 
RM? 为 什么 ? 
假设 一 条 TCP 消息 包含 2 048 字 节 数据 和 20 字 节 的 TCP 首部， 这 条 TCP 消息 要 传送 给 IP， 传 送 通 
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过 因特网 上 的 两 个 网 络 〈 即 从 源 主 机 到 一 台 路 由 器 ， 再 从 路 由 器 到 目的 主机 ) 。 第 一 个 网 络 使 用 14 
字 节 的 首部 ， 并 且 有 一 个 1 024 字 节 的 MTU; 第 二 个 网 络 使 用 8 字 节 的 首部 和 512 字 节 的 MTU。 每 
个 网 络 的 MTU 给 出 链 路 层 巾 能够 承载 的 最 大 IP 数据 报 尺 寸 。 请 给 出 传送 到 目的 主机 网 络 层 的 分 段 
序列 的 尺寸 和 仿 移 量 。 假 设 所 有 IP 首部 的 尺寸 是 20 字 节 。 | 

K MTU 是 2 台 主机 之 间 当 前 路 径 上 所 有 链 路 中 最 小 的 MTU。 假 设 我 们 可 以 找到 上 一 题 中 那 条 路 
径 的 路 径 MTU， 并 以 此 值 作 为 所 有 路 径 分 段 的 MTU, 请 给 出 传送 到 目的 主机 网 络 层 的 分 段 序列 的 
大 小 和 偏 移 量 。 : 


. 假设 一 个 IP 分 组 被 分 为 10 个 分 段 ， 每 个 分 片 丢 失 的 概率 是 1% 〈 独 立 的 ) 。 在 合理 的 估计 下 ， 这 意 


味 着 由 于 分 片 的 丢失 而 丢失 整个 分 组 的 概率 是 10% 。 如 果 分 组 传输 两 次 ， 那 么 整个 分 组 丢失 的 概率 
是 多 少 ? 
(a) 假设 所 有 接收 到 的 分 片 必 须 是 同一 次 传送 的 一 部 分 。 
Cb) 假设 任何 给 定 分 片 可 能 是 任 一 次 传送 的 一 部 分 。 
(c) 解释 为 什么 在 这 里 使 用 Ident 字段 是 适当 的 。 
假设 图 3-18b 中 的 分 片 都 经 过 另 一 个 路 由 器 到 达 一 条 链 路 上 ， 此 链 路 具有 380 字 节 的 MTU, ARE 
路 首部 。 请 给 出 产生 的 分 片 。 如 果 分 组 一 开始 就 按 此 MTU 分 片 ， 将 产生 多 少 个 分 片 ? 
最 大 带宽 是 多 少时 ， 一 台 IP 主机 能 够 在 60s 内 发 送 576 字 节 的 分 组 上 且 不 使 Ident 字段 出 现 回 绕 ? 假设 
IP 的 最 大 分 片 生存 时 间 (MSL) 是 60s， 就 是 说 ， 延 迟 的 分 组 最 多 可 延迟 60s 到 达 。 如 果 超 出 此 带宽 
将 会 怎样 ? 
为 什么 认为 IPv4 是 在 端点 进行 分 片 的 重组 ， 而 不 是 在 下 一 台 路 由 器 上 进行 分 片 的 重组 ?为 什么 IPv6 
完全 舍弃 了 分 片 ? (提示 考虑 IP 层 分 片 和 链 路 层 分 片 的 区 别 。) 
将 ARP 表 中 各 记录 的 超时 设 为 10 一 15 分 钟 是 一 个 合理 的 折衷 尝试 。 试 描述 超时 值 太 小 或 太 大 时 将 
会 出 现 什么 问题 。 
IP 当前 使 用 32 位 的 地 址 。 如 果 我 们 重新 设计 IP 使 用 6 字 节 地 址 而 不 是 32 位 地 址 ， 那 么 是 否 可 以 不 
使 用 ARP? 为 什么 ? 
假设 主机 A 和 主机 B 在 使 用 ARP 的 同一 个 以 太 网 上 被 分 配 了 相同 的 了 P 地 址 ，B 在 A 之 后 启动 。A 的 
现 有 连接 会 怎样 ? 解释 “ 自 ARP” (self-ARP) (启动 时 向 网 络 查 询 自己 的 IP Hebe) 如 何 解决 这 个 问题 。 
假设 一 个 IP 实现 按 如 下 算法 接收 目的 IP 地址 为 DD 的 一 个 分 组 P: 
if (<D 的 以 太 网 地 址 在 ARP 的 高 速 缓存 中 》) 
(RZ P?) 
else 
《发 送 D 的 ARP 查询 》 
《得 到 应 答 回 复 后 将 P 放 入 队列 中 》 
Ca) 如 果 IP 层 接收 到 目的 地 址 为 了 的 突 发 分 组 ， 这 个 算法 怎样 才能 不 浪费 资源 ? 
Cb) 草拟 一 个 改进 版 。 
(c) 假设 当 缓冲 区 查找 失败 时 ， 就 在 发 出 一 个 查询 后 简单 地 丢弃 P。 这 个 过 程 如 何 执行 ? (一 些 早期 
的 ARP 实现 据 称 就 是 这 样 做 的 。) 
对 于 图 3-53 中 给 出 的 网 络 ， 给 出 当 以 下 条 件 成 立时 的 像 表 3-10 和 表 3-13 那样 的 全 局 距离 向 量 表 。 
(a) 每 个 节点 只 知道 到 它 直接 邻居 的 距离 。 
Cb) 每 个 节点 将 前 一 步 中 的 信息 告知 了 它 的 直接 邻居 。 
(c) 步骤 (b) 再 次 发 生 。 


. 对 于 图 3-54 中 给 出 的 网 络 ， 给 出 当 以 下 条 件 成 立时 的 像 表 3-10 和 表 3-13 那样 的 全 局 距离 向 量 表 。 


(a) 每 个 节点 只 知道 到 它 直接 邻居 的 距离 。 

(b) 每 个 市 点 将 前 一 步 中 的 信息 告知 了 它 的 直接 邻居 。 

(c) 步骤 b) 再 次 发 生 。 
对 于 图 3-53 中 给 出 的 网 络 ， 试 述 链 路 状态 算法 如 何 建立 节点 了 D 的 路 由 表 。 
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图 3-53 JÆ 46, YR 48 和 习题 54 的 网 络 图 3-54 习题 47 的 网 络 


49. 使 用 Unix 实 用 程序 traceroute (Windows tracert) 来 确定 从 你 的 主机 到 因特网 上 其 他 主机 (如 
cs. princeton. edu 或 www. cisco. com) 要 经 过 多 少 跳 。 要 想 离开 你 的 本 地 站 点 要 经 过 多 少 个 路 由 器 ? 
阅读 traceroute 手册 或 其 他 文档 ， 并 解释 它 是 如 何 实现 的 。 

50. 如 果 使 用 traceroute 来 寻找 一 个 未 指定 地 址 的 路 径 会 出 现 什么 情况 ? 如 果 只 是 网 络 部 分 或 主机 部 分 未 
指定 会 怎样 呢 ? 

51. 一 个 站 扣 如 图 3-55 Bras. R1 和 R2 是 路 由 器 ，R2 连接 外 部 网 络 。 独 立 的 LAN 是 以 太 网 。RB 是 网 桥 路 
由 器 〈bridgerrouter) ， 它 将 通信 量 路 由 给 自己 ， 并 作为 其 他 通信 量 的 网 桥 。 站 点 内 部 使 用 子 网 划分 ， 每 
个 子 网 中 使 用 ARP。 不 幸 的 是 ， 主 机 A 被 错误 配置 上 且 不 使 用 子 网 。A 能 到 达 B、C、D 中 的 哪 一 个 ? 






R2 


ty, 
“ey, 





Boas 





ce 


图 3-55 习题 51 的 站 点 


52. 在 一 个 所 有 链 路 开销 均 为 1 的 网 络 中 ， 假 设 我 们 有 如 表 3-16 所 示 的 节点 A 和 节点 下 的 转发 表 ， 给 出 
与 这 两 个 表 相 一 致 的 最 小 网 络 的 图 示 。 


表 3-16 习题 52 的 转发 表 


节点 开销 下 一 跳 节点 开销 下 一 跳 
| 
a Le ae E E E D E 
he fe 
e [2 | s+» id 


v 53. 在 一 个 所 有 链 路 开销 均 为 1 的 网 络 中 ,假设 有 如 表 3-17 所 示 的 节点 A 和 节点 下 的 转发 表 。 给 出 与 这 
两 个 表 相 一 致 的 最 小 网 络 的 图 示 。 : 
33-17 习题 53 的 转发 表 


A F 
TR 开销 下 一 跳 PR 开销 下 一 跳 
aa | 1 | 5 | a | ; | 5 
Ee | E O 
Pe ee ee Wee 
a A LCN (MN ee 
F E 


D4. 


20. 


v 56. 


08. 


59. 


60. 


61. 


. 考虑 图 3-56 中 的 简单 网 络 ， 其 中 A 和 也 互 换 距 离 向 量 路 由 信息 。 所 


对 于 图 3-53 中 给 出 的 网 络 ， 假 设 按照 习题 46 建立 所 有 的 转发 表 ， 然 后 CE 链 路 出 错 。 给 出 : 
(a) C 和 玉 报 告 出 错 信 息 后 ，A、B、D 和 下 的 表 。 

(b) A 和 DD 在 它们 下 一 次 互相 交换 信息 之 后 的 表 。 

(c) A 与 C 交 换 信 息 后 ，C 的 表 。 

假设 一 个 路 由 器 建立 了 如 表 3-18 所 示 的 路 由 表 。 这 个 路 表 3-18 习题 55 的 路 由 表 





















由 器 可 以 直接 通过 接口 0 和 接口 1 传送 分 组 ， 或 者 可 将 分 : 子 网 号 mee ”|- 
组 转发 往 路 由 器 R2、R3 或 R4。 请 描述 当 分 组 的 目的 地 _128. 96. 39.0 


128. 96. 39. 128 


255. 255. 255. 128 







址 为 以 下 地 址 时 ， 此 路 由 器 将 怎么 做 。 






255. 255. 255. 128 






















. 128. 96. 40. 0 255. 255. 255. 128 
(a) 128. 96. 39. 10. Cb) 128.96: 40. 12, 192,4. 153.0 
Ce) 128. 96. 40. 151, Cd) 192. 4. 153. 17, i a 7 
Ce) 192, 4. 153. 90, | 
假设 一 个 路 由 器 建立 了 如 表 3-19 所 示 的 路 由 表 。 这 个 路 表 3-19 习题 56 的 路 由 表 
由 器 可 以 直接 通过 接口 0 和 接口 1 传送 分 组 ， 或 者 可 将 分 Fee ”| ” 子 网 掩 码 ”| 下 一 跳 
组 转发 往 路 由 器 R2、R3 或 R4。 假 设 路 由 器 实现 最 长 的 “128.96.170.0 
前 级 匹配 。 请 并 述 当 分 组 的 目的 地 址 为 以 下 地 址 时 ， 此 路 128.96. 168. 
T 。 96. 166.0 | 255-255;254..0 | 
由 器 将 怎么 做 。 128. eis 
(a) 128. 96. 171. 92. Cb) 128. 96.167. 151, — <RU> | O R4 
(c) 128. 96. 163. 151, (d) 128. 96. 169. 192, 


(e) 128. 96. 165. 121, 





有 链 路 开销 均 为 1。 假设 A-E 链 路 出 错 。 
(a) 给 出 导致 A 和 了 之 间 路 由 循环 的 路 由 表 更 新 序列 ， 图 3-56 习题 57 的 简单 网 络 
(b) 估计 情况 (Ca) 的 概率 ,假设 A 和 B 每 次 分 别 以 同样 的 平均 速率 随机 地 发 送 路 由 更 新 消息 。 

(o) 如 果 A 在 发 现 A-E 出 错 的 1s 内 广播 一 个 更 新 报告 ， 而 B 一成不变 地 按 每 60s 广播 一 次 ， 佑 计 形 
成 循环 的 概率 。 | ; 7 | 
考虑 图 3-29 所 示 的 网 络 ， 当 A-E BERS RI Pe PR EAT. TU AL BA C 中 所 有 与 目的 地 
已 有 关 并 导致 循环 的 表 更 新 序列 。 假 设 一 次 做 一 个 表 更 新 ， 所 有 参与 者 都 遵照 水 平分 割 技术 ， 并 且 ， 

A 在 C 之 前 对 了 发送 关于 下 不 可 达 的 初始 报告 。 你 可 以 忽略 不 会 引起 变化 的 更 新 。 

假设 一 组 路 由 器 都 使 用 水 平分 割 技术 ， 这 里 我 们 考虑 如 果 它 们 还 使 用 反 向 抑制 技术 ， 那么 在 什么 情 

况 下 会 有 所 不 同 。 | oo: 

Ca) 假设 相关 主机 使 用 水 平分 割 ， 说 明 反 向 抑制 对 3. 3. 2 节 描 述 的 两 个 例子 中 路 由 循环 的 演变 没有 
影响 。 

Cb) 假设 使 用 水 平分 割 技术 的 路 由 器 A 和 了 由 于 某 种 原因 到 达 了 一 种 状态 ， 在 这 种 状态 下 ， 它 们 将 
一 给 定 目标 和 的 通信 量 互相 转发 。 试 分 别 描述 在 使 用 和 不 使 用 反 向 抑制 时 这 种 情况 将 如 何 发 展 。 

(c) 给 出 即便 使 用 反 向 抑制 ， 仍 会 使 A 和 B 陷 入 如 (b) 的 循环 状态 的 事件 序列 。( 提 示 : 假设 B 和 
A 经 一 个 非常 慢 的 链 路 相连 。 它 们 都 经 过 第 三 个 节点 C 到 达 X， 并 同时 向 对 方 通知 其 路 由 。) 

抑制 《hold down) 是 另 一 种 避免 距离 向 量 循环 的 技术 ， 主 机 在 一 段 时 间 内 忽略 更 新 消息 ， 直 到 有 机 

会 传播 链 路 失败 消息 为 止 。 考 虑 图 3-57 的 网 络 ， 除 了 E-D 链 路 的 开销 为 10 之 外 ， 其 余 所 有 链 路 的 

开销 均 为 1。 假 设 EA ERM, IFA B 随后 立即 向 A 报告 其 环形 的 下 路 由 (这 是 一 条 经 A 的 错误 

路 由 )。 说 明 抑 制 解释 的 细节 ， 并 用 它 描述 两 个 网 络 中 路 由 循环 的 演变 。 在 EABD 网 络 中 没有 延迟 发 

现 可 替代 路 由 的 情况 下 ， 怎 样 扩展 抑制 技术 才能 避免 EAB 网 络 中 的 循环 ? 

考虑 如 图 3-58 的 网 络 ， 使 用 链 路 状态 路 由 。 假 设 B-F 链 路 发 生 故 障 ， 并 且 依次 发 生 以 下 事件 ， 


“(a) 节点 联通 过 一 个 连接 加 到 G 的 右 端 。 


(b) 节点 D 通过 一 个 连接 加 到 C 的 堪 端 。 
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62. 


64. 


65. 


66. 


67. 


68. 


图 3-57 习题 60 的 网 络 


C) 增加 一 条 新 链 路 D-A。 

现在 发 生 故 障 的 B-F 链 路 被 恢复 。 请 描述 哪些 链 路 状态 分 组 将 来 回 扩散 。 假 设 所 有 节点 中 的 初始 序 
号 均 为 1， 且 无 分 组 超时 ， 一 条 链 路 的 两 个 端点 在 链 路 的 LSP 中 使 用 同样 的 序号 ， 并 大 于 以 前 使 用 
过 的 所 有 序号 。 

在 如 图 3- 59 所 示 的 网 络 中 ， 请 给 出 前 向 搜索 算法 在 建立 节点 A 的 路 由 数据 库 时 如 表 3-14 的 步 又。 





图 3-58 “习题 61 的 网 络 图 3-59 习题 62 的 网 络 


. 在 如 图 3-60 所 示 的 网 络 中 ， 请 给 出 前 向 搜索 算法 在 建立 节 ， a A 的 路 由 数据 库 时 如 表 3-14 那样 的 


步 又。 

假设 图 3-61 所 示 网 络 中 的 节 点 参与 链 路 状态 路 由 ，C 接收 到 互相 矛 拓 的 LSP, RAF A 的 声明 A 
B 链 路 不 可 用 ， 而 来 自 于 B 的 声明 A 一 B 链 路 可 用 。 

(a) 这 是 怎么 发 生 的 ? | 

Cb) C 应 怎么 做 ? C 能 够 希望 什么 ? 

不 假设 LSP 包含 任何 同步 时 间 玲 。 





图 3-60 习题 63 的 网 络 图 3-61 习题 64 的 网 络 


假设 IP 路 由 器 学 习 有 关 IP 网 络 和 子 网 信息 的 方法 和 以 太 网 网 桥 学 习 主 机 信息 的 方法 一 样 : 都 是 通过 
关注 新 主机 的 出 现 和 它们 的 分 组 到 达 的 接口 。 将 这 ee A 时 
的 情况 相 比较 : 

Ca) 一 个 叶子 站 点 有 到 因特网 的 连接 。 

(b) 在 不 连 到 因特网 上 的 一 个 组 织 的 内 部 使 用 。 

假设 路 由 器 只 通过 其 他 路 由 器 接收 新 网 络 通知 ， 且 最 初 的 路 由 器 通过 配置 接收 它们 的 IP 网 络 信息 。 
没有 指定 路 由 器 的 IP 主机 需要 将 地 址 错误 地 指向 自己 的 分 组 丢弃 ， 即 使 它们 有 能 力 正 确 转发 这 些 分 
组 。 假 如 没有 这 个 要 求 ， 如 果 一 个 地 址 指向 IP 地 址 A 的 分 组 被 无 意 地 在 链 路 层 广播 ， 会 出 现 什 么 情 
况 ? 你 认为 这 个 要 求 的 存在 还 有 什么 其 他 的 正当 理由 吗 ? 

阅读 Unix/Windows 实用 程序 netstat 的 手册 或 其 他 文档 。 使 用 netstat 显示 你 的 主机 上 的 当前 IP 路 由 
表 ， 解 释 每 一 条 记录 的 目的 。 实 际 的 最 小 记录 数 是 多 少 ? 

一 个 组 织 有 一 个 C 类 网 络 12. 1.1/24， 并 希望 建立 4 个 部 门 的 子 网 ， 其 中 部 门 A 有 75 台 主 机 、B 有 
5 台 主 机 、C 有 20 台 主 机 、D 有 18 台 主 机 ， 共 有 148 GEM, 

Ca) 给 出 可 以 实现 这 个 目标 的 子 网 掩 码 的 一 个 可 能 的 排列 。 


69. 


70. 


71. 


(Ze 


74, 


19: 


160 | a 9% 


Cb) 设想 如 果 部 门 D 增加 到 32 台 主 机 ， 对 组 织 可 以 提出 什么 建议 。 

假设 主机 A 和 B 在 一 个 有 C 类 IP 网 络 地 址 200. 0. 0/24 的 以 太 网 LAN 中 。 现 在 希望 经 
连接 将 主机 C 连 到 网 络 上 ( 见 图 3-62)。 试 解释 如 何 使 用 子 网 做 这 件 7 
事 ， 并 给 出 子 网 设置 的 实例 。 假 设 不 能 使 用 另外 的 网 络 地 址 。 这 将 会 
对 以 太 网 LAN 的 大 小 有 什么 影响 ? 

习题 69 中 连接 主机 C 的 另 一 种 方法 是 使 用 代理 ARP (proxy ARP) 和 
路 由 : B 同意 为 去 往 C 和 来 自 C 的 通信 量 进 行路 由 ， 并 且 也 回答 从 以 
太 网 接收 的 对 C 的 ARP 查询 。 

(a) 当 A 使 用 ARP 定位 然后 再 发 送 一 个 分 组 到 C 时 ， 给 出 所 有 携带 物 
理 地 址 的 分 组 。 | 

(b) 给 出 B 的 路 由 表 。 它 必须 具有 什么 特点 ? 

假设 两 个 子 网 共享 同一 个 物理 LAN， 每 个 子 网 上 的 主机 可 看 到 另 一 个 子 网 上 的 广播 分 组 。 

(a) 如 果 在 共享 LAN 上 并 存 两 台 服 务 器 ， 每 个 子 网 上 一 个 ,那么 DHCP 将 如 何 进行 ? 将 可 能 出 现 什 





图 3-62 习题 69 的 网 络 


么 问题 ? 
(b) 这 种 共享 会 影响 ARP 吗 ? 
R 3-20 是 一 个 使 用 CIDR 的 路 由 表 ， 地 址 字 节 为 16 ji 进 制 。 表 3-20 习题 72 的 路 由 表 
C4. 50. 0.0/12 中 的 “/12” 表 示 网 络 捧 码 的 前 12 位 是 1, 即 网 / 捧 码 长 度 ” ”| FK 
FF. F0. 0.0。 注 意 ， 最 后 3 个 记录 覆盖 每 个 地 址 ， 因 此 可 代 ace A 
替 一 条 默认 路 由 。 请 说 明 下 列 地 址 将 被 传送 到 的 下 一 跳 各 是 C4. 60. 0. 0/12 C 
什么 : C4. 68. 0.0/14 D 

80. 0. 0. 0/1 E 
(a) C4. 5E. 13. 87. (b) C4. 5E. 22.09, TERTA 7 
(c) C3. 41. 80. 02, (d) 5E. 43. 91. 12 。 00. 0. 0. 0/2 _ G 
Ce) C4. 6D. 31. 2E., (f) C4. 6B. 31. 2E. 

. 表 3-21 是 一 个 使 用 CIDR 的 路 由 表 ， 地 址 字 节 为 16 mies 表 3-21 习题 73 的 路 由 表 
C4. 50. 0. 0/12 中 的 “/12” 表 示 网 络 掩 码 的 前 12 位 是 1， 即 ” ”网 / 掩 码 长 度 | 下 一 跳 
es Ch SE, 20/28 A 
什么 C4. 5E. 4. 0/22 B 

2 . C4. 5E. C0. 0/19 ® 
(a) C4. 4B. 31. 2E. (b) C4. SE. 05. 09, C4. 5E. 40. 0/18 D 
Cc) C4. 4D. 31. 2E, (d) C4. 5E. 03. 87, C4. 4C. 0. 0/14 E 
Ce) C4. 5E. 7F. 12, (£) C4. 5E. D1. 02, Co. 0. 0. 0/2 F 
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— ISP 有 一 个 /16 前 缀 〈 旧 的 B 类 地 址 )， 基 于 CIDR 方法 

将 一 部 分 地 址 分 配给 一 家 新 公司 。 新 公司 网 络 中 三 个 部 门 的 机 

器 需要 IP 地 址 : 工程 部 、 市 场 部 和 销售 部 。 这 三 个 部 门 计划 中 的 增长 如 下 : 工程 部 在 第 一 年 开始 时 

有 5 台 机 器 ， 此 后 每 周 增加 一 台 ;， 市 场 部 最 多 需要 16 台 机 器 ; 销售 部 的 每 两 个 客户 需要 一 台 机 器 。 

第 一 年 开始 时 ， 公 司 没 有 客户 ， 但 是 销售 模式 指出 到 第 二 年 开始 时 ， 公 司 将 有 6 个 客户 ， 并 且 ,， 此 

和 

AR AE , 

(a) 如果 市 场 部 使 用 所 有 16 位 地 址 ， 并 且 销 售 部 和 工程 部 像 计 划 预 期 的 那样 ， 那 么 ， 至 少 在 7 年 内 ， 
支持 此 公司 增长 计划 的 地 址 范围 是 什么 ? 

Cb) 这 样 的 地 址 分 配 可 以 维持 多 长 时 间 ? 当 公司 的 地 址 空间 用 完 时 ， 如 何 给 三 个 部 门 分 配 地 址 ? 

Cc) 如 果 在 7 年 计划 内 不 使 用 CIDR 编 址 方法 ， 那么 ， 新 公司 还 有 什么 得 到 地 址 空间 的 选择 ? 

试 提出 一 个 包含 不 同 长 度 前 缀 的 IP 转发 表 的 查找 算法 ， 要 求 不 需要 对 整个 表 进 行 线性 搜索 就 能 找到 

最 长 匹配 。 
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任何 表面 的 平等 背后 都 隐藏 着 等 级 。 


一 一 梅森 。 库 利 


问题 : 扩展 到 数 十 亿 节 点 


我 们 已 经 看 到 如 何 创建 一 个 包含 多 种 类 型 网 络 的 互联 网 。 这 里 ， 我 们 处 理 了 异 构 性 
Cheterogeneity) 问题 。 网 络 互联 中 的 第 二 个 关键 问题 是 规模 (scale) 一 一 这 可 以 说 是 所 
有 网 络 的 基础 问题 。 为 了 理解 规模 问题 ， 有 必要 考查 因特网 的 发 展 过 程 ，30 年 来 ， 因 特 
网 的 规模 几乎 每 年 成 倍 地 增长 。 这 样 的 发 展 迫 使 我 们 面 对 很 多 挑战 。 | 

如 何在 有 几 百 万 个 甚至 几 十 亿 个 节点 的 网 络 中 找到 一 条 高 效 的 路 径 ?正如 我 们 在 本 音 
看 到 的 ， 很 多 解决 路 由 扩展 能 力 的 方法 都 依赖 于 引入 层次 结构 。 我 们 可 以 在 域内 以 区 的 形 
式 引 入 层次 ， 也 可 以 利用 层次 结构 扩展 域 间 路 由 系统 。 促 使 互联 网 扩展 为 当前 规模 的 域 间 
路 由 协议 是 边界 网 关 协 议 (BGP)。 我 们 将 讨论 BGP 的 工作 过 程 及 BGP 所 面临 的 因特网 
持续 扩展 带 来 的 挑战 。 

与 路 由 可 扩展 能 力 密切 相关 的 问题 是 编 址 。20 年 前 IPv4 的 32 位 地 址 即将 用 尽 的 问题 
已 经 显现 出 来 。 因 为 第 5 版 本 的 IP 已 经 在 早期 实验 中 用 过 ， 所 以 这 也 促成 了 新 的 第 六 版 
本 (v6) IP 的 确定 。IPv6 不 仅 从 根本 上 扩展 了 地 址 空间 ， 同 样 也 增加 了 很 多 新 特性 。 其 
中 一 些 新 特性 是 从 IPv4 中 改进 而 来 。 | 

随 着 因特网 的 持续 增长 ， 一 些 功 能 也 随 之 发 展 。 本 章 最 后 一 节 涵 盖 了 一 些 显著 的 增强 
因特网 能 力 的 内 容 。 首 先是 多 播 ， 这 是 一 种 基础 服务 模型 的 增强 ， 即 高 效 传输 同类 分 组 到 
一 组 接收 端的 能 力 。 我 们 将 介绍 如 何 将 多 播 融入 互联 网 ， 并 讨论 多 种 支持 多 播 的 路 由 协 
议 。 第 二 个 增强 点 是 多 协议 标签 交换 (MPLS) ， 它 改变 了 IP 网 络 的 转发 机 制 。 此 修改 使 
IP 的 路 由 方式 和 IP 网 络 提供 的 服务 产生 了 一 些 变化 。 最 后 ， 我 们 讨论 移动 性 对 路 由 的 影 
响 ， 并 描述 为 了 支持 移动 主机 和 路 由 器 而 对 IP 进行 的 增强 。 在 讨论 各 项 增强 内 容 的 同时 ， 
可 扩展 性 仍然 不 可 或 缺 。 


4. 1 全 球 互联 网 

至 此 ， 我 们 已 经 知道 如 何 将 一 些 异 构 的 网 络 相 连 构成 互联 网 ， 以 及 如 何 使 用 简单 的 IP 
地 址 的 层次 结构 在 一 个 可 进行 一 定 扩展 的 互联 网 中 进行 路 由 。 我 们 之 所 以 说 可 进行 “一 定 
的 ”扩展 ， 是 因为 即使 每 台 路 由 器 不 需要 知道 连 到 互联 网 上 的 所 有 主机 ， 但 在 至 今 描 述 的 
模型 中 ， 它 还 是 有 必要 知道 连 在 互联 网 上 的 所 有 网 络 。 今 天 的 因特网 上 连 有 几 万 个 网 络 ， 
我 们 讨论 过 的 路 由 协议 还 不 足以 应 付 这 样 的 规模 。 本 节 讨 论 几 种 大 幅度 提高 可 扩展 性 的 技 
” 术 ， 这 些 技术 使 因特网 发 展 到 当前 的 程度 。 | 

在 介绍 这 些 技术 之 前 ， 我 们 首先 要 对 全 球 因 特 网 的 形态 有 一 个 基本 了 解 。 它 不 只 是 以 
太 网 的 随意 互联 ， 反 之 ， 它 所 呈现 的 形态 反映 出 其 中 互联 了 许多 不 同 的 组 织 机 构 。 图 4-1 





给 出 了 1990 年 时 因特网 状态 的 一 个 简单 描述 。 从 那 以 后 ， 因 特 网 的 拓扑 发 展 得 越 来 越 复 
杂 ，4.1.2 节 和 图 4-4 更 准确 地 描述 了 当前 的 因特网 ， 但 是 现在 我 们 还 是 使 用 图 4-1 来 
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图 4-1 1990 年 时 因特网 的 树 形 结构 


这 个 拓扑 结构 突出 的 特征 之 一 是 它 由 连接 到 服务 提供 商 CSP) 网 络 〈 例 如 ，BAR- 
RNET 网 是 一 个 服务 于 旧金山 湾 区 节点 的 提供 商 网 络 ) 的 终端 用 户 站 点 〈 例 如 斯 坦 福 大 
学 ) 组 成 。1990 年 ， 很 多 提供 商都 服务 于 有 限 的 地 理 区 域 ， 因 此 称 作 区 域 网 (regional 
network) 。 继 而 ， 区 域 网 又 由 一 个 全 国 范围 的 主干 网 相连 。1990 年 ， 美 国 国家 科学 基金 
aS (National Science Foundation, NSF) 提供 资金 建立 了 这 个 主干 网 ， 称 之 为 NSFNET 
主干 网 (backbone)。 尽 管 在 图 41 上 没有 详细 显示 ， 但 提供 商 网 络 通常 由 大 量 连接 到 路 
由 器 上 的 点 到 点 链 路 (如 以 前 的 Tl 和 DS3， 今 天 的 OC-48 和 OC-192 SONET 链 路 ) 构 
成 ; 类 似 地 ， 每 个 终端 用 户 站 点 通常 不 是 一 个 单一 网 络 ， 而 是 由 多 个 通过 路 由 器 和 网 桥 相 
连 的 物理 网 络 组 成 。 ; | | 

注意 ， 在 图 4-1 中 ， 每 个 提供 商 和 终端 用 户 都 可 能 是 管理 上 的 独立 实体 ， 这 就 产生 了 
一 些 有 关 路 由 的 重要 结果 。 例 如 ， 很 可 能 不 同 的 提供 商 对 其 网 络 中 所 使 用 的 最 佳 路 由 协议 
以 及 如 何 给 网 络 中 的 链 路 指定 度量 标准 都 有 不 同 的 看 法 。 因 为 这 种 独立 性 ， 通 常 每 个 提供 
商 网 络 就 是 一 个 自治 系统 (autonomous system，AS) 。 我 们 将 在 4.1.2 节 更 精确 地 定义 此 
术语 ， 但 是 现在 ， 可 将 一 个 AS 看 作 一 个 管理 上 独立 于 其 他 AS 的 网 络 。 

因特网 有 清晰 可 辨 的 结构 ， 这 有 助 于 我 们 解决 可 扩展 性 问题 。 实 际 上 ， 我 们 需要 解决 
两 个 有 关 可 扩展 性 的 问题 。 第 一 个 是 路 由 的 可 扩展 性 问题 。 我 们 需要 找到 减少 路 由 协议 中 
携带 的 和 路 由 器 的 路 由 表 中 存储 的 网 络 号 数目 的 方法 。 第 二 个 是 地 址 利用 问题 ， 即 确保 IP 
地 址 空间 不 会 被 过 快 地 消耗 。 | E 

通过 本 书 ， 我 们 将 一 次 又 一 次 地 了 解 用 来 改进 可 扩展 性 的 层次 结构 的 原理 。 我 们 曾 在 
前 面 章节 里 看 到 IP 地 址 的 层次 化 结构 对 路 由 可 扩展 性 的 改善 ， 特 别 是 无 类 别 域 间 路 由 
(CIDR) 和 子 网 。 在 下 面 两 节 里 ， 我 们 可 以 看 到 在 未 来 应 用 中 利用 层次 化 〈 以 及 聚集 ) 来 
提供 更 强 的 扩展 能 力 ， 包 括 域内 及 域 间 。 最 后 一 节 考 查 新 兴 的 IPv6 标准 ， 它 的 创建 很 大 
程度 上 是 考虑 可 扩展 性 的 结果 。 
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作为 第 一 个 使 用 层次 化 扩展 路 由 系统 的 例子 ， 我 们 来 看 连接 状态 路 由 协议 如 何 用 于 将 
一 个 路 由 域 划 分 为 称 为 区 〈area) 的 子 域 ， 如 OSPF 和 IS-IS (不 同 协议 中 用 的 术语 稍 有 不 





同 ， 这 里 ， 我 们 使 用 OSPF) 。 通 过 在 层次 结构 中 加 入 这 < 个 额外 的 层 ， 我 们 使 单个 域 变 
ne 
区 是 从 管理 上 配置 成 相 屯 交换 链 路 状态 信息 的 路 由 器 的 集合 ， 主 于 网 区 是 _ 个 村 吻 的 
区 ， 也 称 为 区 0。 一 个 划分 成 区 的 路 由 域 的 例子 如 图 4-2 所 示 。 路 由 器 R1I、R2 和 R3 是 主 
干 网 区 的 成 员 ， 它 们 至 少 也 是 一 个 非 主干 网 区 的 成 员 ，R1 实际 上 是 区 1 和 区 2 的 成 员 。 
一 台 既 是 主干 网 区 也 是 非 主干 网 区 成 员 的 路 由 器 是 区 边界 路 由 器 (ABR) 。 注 意 这 些 与 AS 
边界 上 的 路 由 器 有 所 区 别 。 





ol 





图 4-2 一 个 分 为 区 的 域 


区 中 的 路 由 如 3. 3. 3 节 所 述 。 区 中 的 所 有 路 由 器 彼此 间 发 送 链 路 状态 通知 ， 并 由 此 发 
展 出 一 个 完整 且 一 致 的 区 映像 图 。 然 而 ， 非 区 边界 路 由 器 的 链 路 状态 通知 不 会 离开 产生 它 
们 的 区 。 这 使 扩散 和 路 由 计算 进程 具有 更 为 显著 的 可 扩展 性 。 例 如 ， 区 3 中 的 路 由 器 R4 
永远 看 不 到 区 1 中 路 由 器 R8 的 链 路 状态 通知 。 结 果 ， 它 不 会 知道 除 自己 所 在 区 以 外 的 任 
何 区 的 详细 拓扑 。 | 

那么 ， 区 中 的 一 台 路 由 器 如 何 确定 一 个 目标 为 另 一 个 区 中 网 络 的 分 组 的 正确 下 一 跳 ? 
如 采 我 们 把 从 一 个 非 主 干 网 区 到 另 一 个 非 主干 网 区 的 分 组 路 径 分 为 三 部 分 ， 答 案 就 变 得 清 
楚 了 。 首 先 ， 分 组 从 源 网 络 传输 到 主干 网 区 ， 然 后 穿 过 主干 网 ， 再 从 主干 网 传输 到 目的 网 
络 。 为 了 做 到 这 一 点 ， 区 边界 路 由 器 汇总 从 一 个 区 中 了 解 到 的 路 由 信息 ， 使 其 能 够 在 给 其 
他 区 的 通知 中 使 用 。 例 如 ，R1 收 到 从 区 1 中 所 有 路 由 器 发 来 的 链 路 状态 通知 ， 并 因此 能 
够 确定 到 区 1 中 任何 网 络 的 开销 。 当 R1 向 区 0 发 送 链 路 状态 通知 时 ， 它 通知 到 达 区 1 中 
网 络 的 开销 ， 就 好 像 那些 网 络 是 直接 连 在 RI 上 一 样 。 这 使 区 0 中 的 所 有 路 由 器 能 够 了 解 
ee 然后 区 边界 路 由 器 汇总 这 些 信息 ， 并 将 其 通知 到 非 主干 网 

这 样 ， 所 有 路 由 器 都 知道 如 何 到 达 域 中 的 所 有 网 络 。 

注意 在 区 2 中 有 两 个 ABR， 因 此 区 2 中 的 路 由 器 将 不 得 不 选择 其 中 的 一 一 个 用 于 到 达 主 

于 网 区 。 这 很 简单 ， 由 于 RI 和 R2 将 通知 到 达 不 同 网 络 的 开销 ， 因 此 ， 区 2 中 路 由 货运 

行 最 短路 径 算 法 后 ， 哪 一 台 路 由 器 是 更 好 的 选择 就 会 变 得 清楚 。 例 如 ， 对 于 区 1 中 的 目的 
地 来 说 ， 显 然 R1 将 是 比 R2 更 好 的 选择 。 

当 把 一 个 域 划分 为 区 时 ， 网 络 管理 员 在 可 扩展 性 与 路 由 优化 性 之 间 做 出 权衡 。 区 的 使 


用 使 得 所 有 从 一 个 区 到 另 一 个 区 的 分 组 必须 通过 主干 网 区 行进 ， 即 使 存在 一 条 更 短 的 可 用 
路 径 。 例 如 ， 即 使 R4 和 R5 直接 相连 ， 分 组 也 不 能 在 它们 之 间 传 递 ， 因 为 它们 在 不 同 的 
非 主干 网 区 。 由 此 证 实 ， 可 扩展 性 的 需求 通常 比 使 用 绝对 最 短路 径 的 需求 更 为 重要 。 

结论 ”这 说 明了 网 络 设计 中 的 一 个 重要 原则 。 在 某 种 优化 性 和 可 扩展 性 之 间 经 党 

要 做 出 权衡 。 当 引入 层次 性 后 ， 信 息 对 网 络 中 一 些 节 点 是 隐藏 的 ， 从 而 限制 了 它 

们 做 出 完美 优化 选择 的 能 力 。 然 而 ， 对 可 扩展 性 来 说 信息 隐藏 是 必需 的 ， 因 为 这 

可 以 避免 所 有 节点 知道 全 局 信息 。 在 大 型 网 络 中 ， 可 扩展 性 永远 是 比 完美 优化 性 

更 迫切 的 设计 目标 。 

最 后 ,我们 注意 到 网 络 管理 员 使 用 一 个 技巧 来 更 灵活 地 决定 哪 一 台 路 由 右 进 入 区 0。 
这 个 技巧 使 用 路 由 器 之 间 虚 链 路 (virtual link) 的 思想 。 这 条 虚 链 路 通过 配置 一 个 非 直接 
连 到 区 0 上 的 路 由 器 与 一 个 直接 连 到 区 0 上 的 路 由 器 之 间 交 换 主 干 网 路 由 信息 来 获得 。 例 
如 ，R8 和 R1 之 间 可 配置 一 条 虚 链 路 ， 这 使 R8 成 为 主干 网 的 一 部 分 。 现 在 ，R8 将 参与 和 
区 0 中 其 他 路 由 器 的 链 路 状态 通知 扩散 。 从 R8 到 R1 的 虚 链 路 开销 通过 区 1 中 发 生 的 路 由 
信息 交换 来 确定 。 这 项 技术 有 助 于 提升 路 由 的 优化 。 


4.1.2 域 间 路 由 


本 节 一 开始 我 们 就 引入 了 这 样 的 概念 ， 可 按 自治 系统 (AS) 来 组 织 因特网 ， 每 个 自 
治 系统 (AS) 在 一 个 单独 的 管理 实体 的 控制 之 下 。 
一 个 复杂 的 公司 内 部 网 络 可 以 是 一 个 AS， 因 特 网 
的 一 个 服务 提供 网 络 也 可 以 是 一 个 AS, 图 4-3 显 
示 了 有 两 个 自治 系统 的 简单 网 络 。 | 

自治 系统 的 基本 思想 是 提供 将 一 个 大 型 互联 
网 中 的 路 由 信息 进行 分 层 聚 合 的 一 种 补充 方法 ， 
以 提高 可 扩展 性 。 现 在 ， 我 们 将 路 由 问题 划分 为 
两 部 分 ， 单 个 自治 系统 内 的 路 由 和 自治 系统 间 的 
路 由 。 由 于 在 因特网 中 自治 系统 的 另 一 个 名 字 是 
路 由 域 (domain) ， 因 此 我 们 称 路 由 问题 的 两 部 分 
分 别 为 域 间 路 由 和 域内 路 由 。 此 外 ， 为 了 提高 可 
扩展 性 ，AS 模型 将 发 生 在 各 个 不 同 AS 中 的 域内 
路 由 分 离 。 这 样 ， 每 个 AS 都 能 够 运行 自己 选择 的 
任何 域内 路 由 协议 。 如 果 它 希望 的 话 ， 甚 至 可 以 
使 用 静态 路 由 或 多 协议 。 这 样 ， 域 间 路 由 问题 就 
成 为 使 不 同 AS 彼此 间 共 享 可 达 性 信息 的 问题 ， 即 共享 通过 给 定 的 AS 可 达 的 IP 地 址 配置 
信息 。 ta 

1. 域 间 路 由 的 挑战 | | | 

Jo Te] Ba 4 RA OT E ARR EE AS 都 需要 确定 自己 的 路 由 策略 (poli- 
cy) 。 在 一 个 特定 的 AS 中 ， 一 个 简单 的 路 由 策略 实现 实例 为 ,只 要 可 能 ， 都 优先 通过 AS 








图 4-3 有 两 个 自治 系统 的 网 络 
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“X” 而 不 是 AS“Y” 来 发 送 流量 ， 只 有 在 AS“Y” 是 唯一 路 径 的 时 候 使 用 AS“Y”， 且 
从 不 允许 从 AS“X ”到 AS“Y2” 产 生 流量 ， 反 之 亦 然 。 当 我 们 付费 使 用 AS “X” M AS 
“Y” 以 将 目 己 的 AS 连接 到 因特网 ， 且 AS“X” 是 优先 连接 的 提供 商 而 AS“Y” 作 为 后 
备 时 ， 上 述 实例 将 成 为 一 个 典型 的 策略 。 因 为 当 AS“X” 和 AS“Y” 都 作为 提供 商 时 
(假设 我 们 出 资 让 它们 扮演 这 样 的 角色 )， 不 希望 跨 过 我 们 的 网 络 来 承载 它们 之 间 的 流量 
〈 这 叫 作 中 转 (transit) 流量 )。 我 们 连接 的 AS 越 多 ,采用 的 策略 就 越 复 杂 ， 特 别 是 当 所 
考虑 的 主干 网 提供 商 与 几 十 个 其 他 提供 商 或 者 成 百 的 用 户 连接 ， 且 与 每 一 个 连接 都 采用 不 
同 的 商业 安排 时 〈 这 些 安排 影响 路 由 策略 )。 pe te : 

域 则 路 由 的 一 个 关键 设计 目标 是 支持 类 似 上 述 例 子 的 策略 或 者 更 为 复杂 的 路 由 策略 。 
使 这 个 问题 变 得 更 困难 的 是 我 需要 在 没有 任何 其 他 自治 系统 帮助 的 情况 下 实现 这 样 的 策 
略 ， 并 且 要 面 对 可 能 的 错误 配置 或 者 其 他 自治 系统 的 恶意 行为 。 除 此 以 外 ， 经 常 需要 隐藏 
(private) 策略 ， 因 为 运行 自治 系统 的 个 体 〈 大 部 分 是 服务 提供 商 ) 常 相互 竞争 且 不 希望 
自己 的 商业 安排 被 公开 。 

在 因特网 近 些 年 的 历史 中 ， 有 两 种 主要 的 域 间 路 由 协议 。 第 一 种 是 外 部 网 关 协 议 
(Exterior Gateway Protocol, EGP), EGP 有 很 多 局 限 性 ， 其 中 最 严重 的 可 能 是 严重 限制 
了 因特网 的 拓扑 结构 。EGP 基本 上 要 求 因特网 为 树 形 拓扑 结构 ， 或 者 更 确切 地 说 ， 它 是 
在 因特网 树 形 拓 扑 结构 的 基础 上 设计 的 ， 如 图 4-1 所 示 。EGP 不 允许 更 通用 的 拓扑 结构 。 
注意 ， 在 简单 的 树 形 结 构 中 ， 只 有 一 个 主干 网 ， 并 且 与 自治 系统 之 间 的 连接 是 父子 关系 而 
不 是 对 等 关系 。 ea! 

RF EGP 的 是 边界 网 关 协 议 (Border Gateway Protocol, BGP), 4a 5 æ EA} BGP 有 
了 第 4 版 (BGP-4), BGP 比较 复杂 。 本 节 给 出 BGP-4 的 要 点 。BGP 一 直 被 认为 是 互联 网 
最 复杂 的 部 分 之 一 。 我 们 在 此 对 其 中 一 些 重 要 部 分 进行 讨论 。 | 

与 之 前 的 EGP 不 同 ，BGP 并 不 假设 自治 系统 的 互联 方式 ， 它 们 可 形成 任意 图 形 。 这 
种 模型 显然 是 非常 通用 的 ， 足 以 适应 非 树 形 结构 的 互联 网 络 ， 像 今天 的 多 主干 因特网 一 
样 ， 图 4-4 给 出 它 的 简化 图 示 。 (我 们 下 面 仍然 会 看 到 有 一 些 互 联网 结构 不 像 树 这 样 简 单 ，- 
H. BGP 对 此 类 结构 不 做 任何 假设 。) 
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图 4-4 简单 的 多 提供 商 因特网 


与 图 4-1 所 示 的 简单 树 形 结构 的 因特网 不 同 ， 同 样 与 图 4-4 的 结构 也 不 同 , 今天 的 因 
特 网 由 互联 的 多 个 主干 网 组 成 ， 这 些 网 络 大 多 由 一 些 私 有 公司 而 不 是 政府 所 运营 。 很 多 互 
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联网 服务 提供 商 CSP) 的 存在 主要 是 为 了 向 “客户 ”( 即 家 中 有 PC 的 个 人 ) 提供 服务 ， 
而 其 他 ISP 提供 的 服务 与 传统 的 主干 网 服务 更 为 相似 ， 即 连接 到 其 他 提供 商 或 大 型 公司 。 
通常 ， 很 多 提供 商 在 唯一 的 对 等 点 (peering point) 上 彼此 互联 。 

为 了 更 加 清楚 地 了 解 如 何在 复杂 的 自治 系统 互联 中 管理 路 由 ， 我 们 从 定义 一 些 专 有 名 
词 开始 。 我 们 将 局 部 流量 (local traffic) 定义 为 在 AS 内 的 节点 上 起 止 的 通信 量 ， 并 且 将 
中 转 流量 (transit traffic) 定义 为 穿 过 一 个 AS 传送 的 通信 量 ， 并 把 AS 分 为 三 类 

。 桩 AS: 与 另 一 个 AS 只 有 一 个 连接 ， 这 样 的 AS 只 传送 局 部 通信 和 量 。 图 4-4 中 的 小 

公司 就 是 一 个 桩 AS 的 例子 。 | : aa 

。 多 连接 AS: 与 一 个 以 上 的 其 他 AS 有 连接 ， 但 是 拒绝 传送 中 转 通信 量 。 例 如 ， 图 

4-4 上 部 的 大 公司 。 
。 中 转 AS: 与 一 个 以 上 的 其 他 AS 有 连接 ， 并 能 传送 局 部 和 中 转 两 种 通信 量 ， 如 图 
4-4 中 的 主干 网 提供 商 。 : 

尽管 3. 3 节 路 由 讨论 的 焦点 是 根据 最 小 化 某 种 链 路 度量 值 来 找到 一 条 最 优 路 径 ， 但 域 
间 路 由 的 目标 则 更 为 复杂 。 首 先 必须 找到 一 条 无 环 的 通 往 预定 目的 地 的 路 径 ， 其 次 ， 路 径 
必须 兼容 沿 着 路 径 的 不 同 AS 的 策略 。 就 像 我 们 已 经 看 到 的 ， 那 些 策略 可 能 非常 复杂 。 因 
此 ， 当 域内 关注 于 具有 良好 定义 的 路 径 开销 优化 问题 时 ， 域 间 则 关注 于 一 个 更 为 复杂 的 优 
”化 问题 ， 就 是 寻找 最 好 的 策略 兼容 (policy-compliant) BR. 

域 间 路 由 之 所 以 困难 ， 有 这 样 几 个 原因 。 首 先是 可 扩展 性 问题 。 因 特 网 主干 网 路 由 器 
必须 能 够 转发 目标 为 因特网 中 任何 地 址 的 分 组 。 这 就 需要 有 一 张 路 由 表 以 提供 对 任何 合法 
IP 地 址 的 匹配 。 虽 然 CIDR 有 助 于 控制 因特网 的 主干 网 路 由 中 携带 的 不 同 前 缀 的 数目 ， 但 ， 
是 仍 不 能 避免 大 量 路 由 信息 的 传递 一 一 至 编写 此 书 时 大 约 达到 300 000 个 前 级 9 。 

域 间 路 由 面临 的 进一步 挑战 来 自 于 域 的 自治 特性 。 注 意 ， 每 个 域 可 以 运行 它 自己 的 内 
部 路 由 协议 ， 并 可 以 使 用 任何 它 选用 的 路 径 度量 值 设置 的 方案 。 这 就 意味 着 计算 穿 过 多 个 
AS 的 有 意义 的 路 径 开销 是 不 可 能 的 。 一 个 值 为 1 000 的 开销 对 某 个 提供 商 来 说 可 能 是 一 
条 很 好 的 路 径 ， 而 对 另 一 个 提供 商 来 说 可 能 是 很 糟糕 的 。 因 此 ， 域 间 路 由 只 通知 可 达 性 
Creachability) 。 可 达 性 概念 基本 上 可 以 描述 为 “你 能 通过 这 个 AS 到 达 这 个 网 络 ”。 这 就 意 
味 着 在 域 间 路 由 中 ， 选 择 一 条 最 优 路 径 是 根本 不 可 能 的 。 

域 间 的 自 组 织 状况 引发 了 信任 的 问题 。 提 供 商 A 可 能 不 愿意 相信 来 自 提供 商 B 的 某 
些 通知 ， 担 心 提供 商 B 通知 错误 的 路 由 信息 。 例 如 ， 当 提供 商 B 通知 到 因特网 上 任何 地 方 
的 一 条 成 功 路 由 时 ， 如 果 提 供 商 B 错误 地 配置 了 它 的 路 由 器 或 者 没有 足够 的 容量 承载 通信 
量 ， 那 么 信任 它 将 是 灾难 性 的 。 本 

与 信任 相关 的 问题 与 支持 上 述 复杂 策略 的 需要 相关 。 例 如 ， 我 们 可 能 希望 信任 一 个 部 
分 提供 商 仅 当 其 通知 可 达 特 定 的 前 级 时 ， 因 此 可 以 采用 这 样 的 策略 : 使 用 AS“X” 到 达 
前 级 或 4， 当 且 仅 当 AS“X” 通 知 那些 前 级 可 达 ， 

2. BGP 基础 | 

每 个 AS 都 有 一 个 或 多 个 边界 路 由 器 ， 通 过 它 的 分 组 进入 或 离开 AS。 在 图 4-3 所 示 的 
简单 例子 中 ， 路 由 器 R2 和 R4 称 为 边界 路 由 器 。( 多 年 来 ， 路 由 器 有 时 也 称 为 网 关 (gate- 





看 本 章 结尾 给 出 的 网 址 来 确定 该 值 的 当前 估计 值 。 
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way)， 因 此 有 了 协议 BGP Al EGP WZ.) 边界 路 由 器 是 一 个 简单 的 掌管 在 自治 系统 之 
间 转 发 分 组 任务 的 IP 路 由 器 。 | 

每 一 个 参与 BGP 的 AS 必须 至 少 有 一 个 BGP “代言 人 ”， 这 个 代言 人 是 一 台 路 由 器 ， 
并 与 其 他 自治 系统 的 BGP 代言 人 交流 。 通 常会 发 现 边界 路 由 器 也 是 BGP 代言 人 ， 但 边界 
路 由 器 并 不 是 一 定 要 成 为 BGP 代言 人 。 | 

BGP 并 不 属于 3. 3 节 描 述 的 两 类 主要 的 路 由 协议 (距离 向 量 和 链 路 状态 协议 )。 与 这 
些 协议 不 同 ，BGP 将 以 AS 枚 举 列表 的 形式 通知 到 达 某 个 特定 网 络 的 完整 路 径 (complete 
path) 。 正 因为 这 样 ，BGP HRP NBA HS 〈path-vector) 协议 。 这 是 根据 一 个 特定 AS 的 
意愿 而 做 出 如 上 描述 的 那 类 策略 决策 所 必需 的 。 而 且 它 使 得 路 由 循环 很 容易 被 检测 出 来 。 

我 们 以 图 4-5 所 示 的 网 络 来 说 明 这 个 过 程 。 假 设 提供 商 是 中 转 网 络 ， 而 客户 网 络 是 
桩 。 提 供 商 A (AS2) 的 BGP 代言 人 可 通知 分 配给 客户 P 和 Q 的 网 络 号 的 可 达 性 信息 。 
实际 上 就 是 “网 络 128. 96、192. 4. 153、192. 4. 32 和 192. 4. 3 可 从 AS2 直接 到 达 ”。 主 干 
网 收 到 这 条 通知 后 ， 再 通知 “网 络 128. 96、192. 4.153、192. 4. 32 和 192.4.3 可 经 路 径 
(ASI, AS2) 到 达 ”。 类 似 地 ， 它 还 可 以 通知 “网 络 192. 12. 69、192. 4. 54 和 192. 4. 23 可 
经 路 径 (AS1，AS3》 到达 ”。 人 
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图 4-5 一 个 运行 BGP 的 网 络 的 例子 


BGP 一 项 重要 的 任务 是 防止 建立 带 环 路 径 。 例 如 图 4-6 中 的 网 络 与 图 4-5 不 同 的 地 方 
在 于 ,在 AS2 和 AS3 间 多 了 一 个 连接 ,但 带 来 的 影响 在 于 自治 系统 形成 了 闭环 。 假设 
AS] 得 知 它 可 经 AS2 到 达 网 络 128. 96， 因 此 ， 它 将 此 事实 通知 AS3，AS3 又 通知 AS2。 
AS2 现在 可 断定 应 将 目标 是 128. 96 的 分 组 发 往 AS3，AS3 又 将 分 组 发 往 ASL, ASL 再 发 
EA AS2， 它 们 将 无 限 循环 下 去 。 这 种 现象 可 通过 在 路 由 消息 中 携带 完整 的 AS 路 径 来 避 
免 。 这 种 情况 下 ，AS2 从 AS3 接收 的 通 往 128.96 的 通知 将 包括 一 条 AS 路径 (AS3， 
AS1，AS2，AS4)。AS2 看 到 它 自己 在 路 径 中 ， 因 而 得 出 这 是 一 条 无 用 路 径 的 结论 。 

为 了 使 这 种 闭环 预防 技术 生效 ，BGP 中 携带 的 AS 号 应 该 唯一 。 例 如 ， 在 上 面 的 例子 
中 ， 如 果 其 他 AS 不 以 同样 方法 标识 自己 ，AS2 就 只 能 在 AS 路 径 中 识别 出 自己 。AS 号 是 
由 中 心 授权 机 构 分 配 的 保证 唯一 性 的 16 位 数字 。 由 于 16 位 只 允许 约 65 000 个 AS， 看 起 
来 似乎 并 不 多 ， 因 此 我 们 注意 到 桩 AS 不 需要 唯一 的 AS 号 ， 这 和 覆盖 了 绝 大 多 数 非 提供 商 
网 络 9 。 | 


© 32 位 的 AS 号 也 已 经 被 定义 并 在 2009 年 左右 开始 使 用 ， 这 样 就 可 以 确保 AS 号 空间 不 会 成 为 稀缺 资源 。 
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图 4-6 一 个 自 组 织 系统 闭环 的 例子 


我 们 应 该 注意 ， 一 个 给 定 的 AS 仅 通 知 自 认为 足够 好 的 路 由 。 也 就 是 说 ， 如 果 BGP 代 

言 人 有 多 条 到 达 同 一 目的 地 的 路 由 可 供 选 择 ， 那 么 它 将 根据 自己 的 本 地 策略 来 选择 最 好 的 

一 条 ， 然 后 这 就 是 它 通知 的 路 由 。 而 且 ， 即 使 BGP 代言 人 有 一 条 到 达 某 个 目的 地 的 路 由 ， 

它 也 没有 通知 的 义务 。 这 就 是 AS 如 何 实现 不 提供 中 转 的 策略 ， 拒绝 通知 去 往 那 些 未 包含 
在 这 个 AS 前 缀 的 路 由 ， 即 使 它 知道 怎么 到 达 这 些 地 址 。 

如 果 一 条 路 径 上 的 链 路 出 现 故 障 或 策略 改变 ， BGP 代言 人 需要 

能 够 取消 之 前 通知 的 路 径 。 这 由 一 种 称 为 撤销 路 由 (withdrawn 
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撤消 的 路 由 长 度 | 
route) 的 负 通知 形式 来 完成 。 正 的 和 负 的 可 达 性 信息 都 携带 在 一 个 “一 一 一 一 一 
BGP 更 新 消息 中 ， 格 式 如 图 4-7 所 示 。 (注意 图 中 的 字段 长 度 是 16 | MAME | 
比特 的 倍数 ， 这 与 本 章 中 其 他 的 分 组 格式 不 同 .) | 

不 像 前 面 章节 中 描述 的 路 由 协议 ，BGP 被 定义 为 运行 在 5. 2 节 Dona 

ie mT HE ea Bb —TCP 之 上 。 因 为 BOP 代言 人 可 以 依赖 eme | 
TCP 而 变 得 可 靠 ， 这 意味 着 从 一 个 代言 人 向 另 一 个 代言 人 发 出 的 任 | TEK) 
何 信息 不 需要 重 发 。 因 此， 只 要 不 出 现 变化 ， 实 际 上 一 个 BCP 代言 | measten E 
人 就 可 以 只 是 偶尔 发 送 一 个 “keep alive” WA, BR REER | (TEK) 


Bp ete ett ede tress soa steer 


里 ,无 任何 变化 ”。 如 果 这 人 台 路 由 器 崩溃 ， 就 将 停止 发 送 这 类 消息 ， 
从 它 那里 获取 路 由 的 其 他 路 由 器 就 会 知道 那些 路 由 不 再 有 效 。 “人 
3. 常见 AS 关系 和 策略 分 组 格式 


之 前 提 到 的 策略 可 能 非常 复杂 ， 事 实证 明 还 是 有 一 些 常见 策略 能 够 反映 自治 系统 的 关 
系 。 最 常见 的 关系 如 图 4-8 所 示 ， 与 之 相关 的 三 种 常见 关系 和 策略 如 下 ; | 

。 提 供 商 -客户 。 提 供 商 需 要 把 客户 接 入 网 络 ， 客户 可 能 是 一 个 公司 ， 或 是 小 规模 的 

ISP (他 们 自己 本 身 也 有 客户 )。 因 

此 常见 策略 是 向 客户 通知 已 知 的 所 有 

路 由 ， 并 将 从 客户 那里 获取 的 路 由 信 ， 
息 通 知 所 有 路 由 器 。 

。 客 户 - 提 供 商 。 在 另 一 个 方向 上 ， 客 ， 

户 想 要 通过 提供 商 获得 发 送 给 他 (或 

他 的 客户 ， 如 果 他 拥有 客户 ) 的 流 

量 ， 并 且 想 通过 提供 商 发 送 数据 流量 图 4-8 常见 AS 关系 
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到 其 他 网 络 。 因 此 这 种 情况 下 的 常见 策略 就 是 向 提供 商 通知 自己 的 前 缀 和 从 客户 
那里 学 到 的 路 由 信息 ， 向 客户 通知 从 提供 商 那里 学 到 的 路 由 ,但 是 并 不 将 从 一 个 
提供 商学 到 的 路 由 通知 给 另 一 个 提供 商 。 最 后 一 步 是 确认 客户 自己 没有 从 一 个 提 
供 商 向 另 一 个 提供 商 传递 流量 ， 因 为 这 是 支付 网 络 流量 费用 的 人 所 不 愿 看 到 的 。 
对 等 。 第 三 种 选择 是 自治 系统 间 的 对 等 关系 。 两 个 提供 商 是 对 等 的 且 为 对 方 的 客 
户 提供 接 人 且 不 用 向 对 方 付 费 。 这 里 的 典型 策略 是 向 对 等 提供 商 通知 从 客户 学 到 
的 路 由 ， 向 客户 通知 从 提供 商学 到 的 路 由 ， 但 并 不 向 其 他 提供 商 通 知 从 对 等 方 学 
到 的 路 由 ， 反 之 亦 然 。 

图 中 有 一 点 值得 注意 ， 即 它 向 明显 无 结构 的 网 络 加 入 一 些 结构 的 方式 。 在 这 个 层次 的 
底层 有 桩 网 络 ， 它 是 一 个 或 多 个 提供 商 的 客户 ， 沿 着 层次 往 上 走 ， 我 们 可 以 看 到 其 他 一 些 
提供 商 被 作为 客户 的 提供 商 。 最 上 层 的 提供 商 有 客户 和 对 等 方 ， 但 它 不 是 其 他 服务 商 的 客 
户 。 这 些 提供 商 称 为 Tier-1 提供 商 。 

结论 ”让 我 们 回 到 现实 的 问题 : 这 些 方 法 如 何 帮 助 我 们 建造 可 扩展 的 网 络 ? 首 

先 ， 参 与 BGP 的 节点 数目 与 AS 的 数目 是 同一 数量 级 ,而 AS 数目 比 网 络 数目 小 

得 多 。 其 次 ， 找 到 一 条 好 的 域 间 路 由 即 是 找到 一 条 通 往 正 确 的 边界 路 由 器 的 路 

径 ， 而 每 个 AS 只 有 少数 几 个 边界 路 由 器 。 这 样 ， 我 们 就 将 路 由 问题 简单 地 划分 

为 可 管理 的 几 部 分 ， 再 一 次 使 用 一 个 新 的 层次 来 增加 可 扩展 性 。 域 间 路 由 的 复杂 

性 取决 于 AS 的 数量 ， 而 域内 路 由 的 复杂 性 取决 于 一 个 AS 内 的 网 络 数目 。 

4, 集成 域 间 路 由 和 域内 路 由 

前 面 的 讨论 说 明了 BGP 代言 人 如 何 了 解 域 间 路 由 信息 ， 却 没有 说 明 域 中 所 有 其 他 路 
由 器 如 何 得 到 这 个 信息 的 问题 。 解 决 此 问题 有 几 种 方法 。 

让 我 们 从 一 种 非常 简单 而 且 也 非常 普遍 的 情况 开始 讨论 。 对 于 一 个 只 有 一 点 与 其 他 
AS 连接 的 桩 AS 来 说 ， 显 然 边界 路 由 器 是 AS 外 部 所 有 路 由 的 唯一 选择 。 这 样 的 路 由 器 可 
以 将 一 个 默认 路 由 (default route) 注入 域内 路 由 协议 。 实 际 上 ， 它 表明 任何 一 个 在 域内 
协议 中 没有 被 明确 通知 的 网 络 都 可 以 通过 边界 路 由 器 到 达 。 回 忆 一 下 4.1 节 对 于 IP 转发 
的 讨论 ， 转 发 表 中 的 默认 项 在 所 有 指定 项 之 后 ， 并 且 与 任何 匹配 失败 的 项 匹配 。 

下 一 步 是 使 从 外 部 AS 了 解 到 的 特定 路 由 注入 边界 路 由 器 。 例 如 ， 考 虑 连接 到 客户 
AS 的 提供 商 AS 的 边界 路 由 器 。 此 路 由 器 通过 BGP 或 通过 已 经 配置 在 其 中 的 信息 ， 知 道 
PUA ATE 192. 4. 54/24 位 于 该 客户 AS 中 。 它 可 以 将 到 此 前 缀 的 路 由 注入 提供 商 AS 运行 
的 路 由 协议 。 这 将 是 这 样 的 一 种 通知 :“ 我 有 一 条 到 192. 4. 54/24 的 开销 为 X 的 链 路 ”>。 这 
将 使 提供 商 AS 中 的 其 他 路 由 器 知道 可 将 目标 为 那个 前 缀 的 分 组 发 往 此 边界 路 由 器 。 

最 后 一 级 复杂 性 出 现在 主干 网 中 ， 主 干 网 从 BGP 了 解 到 如 此 多 的 路 由 信息 ， 以 至 于 
因 开销 太 大 而 不 能 将 其 注入 域内 协议 。 例 如 ， 如 果 一 个 边界 路 由 器 想 要 注入 从 另 一 个 AS 
了 解 到 的 10 000 个 前 级， 它 将 不 得 不 发 送 非常 大 的 链 路 状态 分 组 到 AS 中 的 其 他 路 由 器 ， 
并 且 最 短路 径 的 计算 也 将 变 得 很 复杂 。 因 此 ， 主 干 网 中 的 路 由 器 使 用 BGP 的 一 种 称 为 内 
部 BGP GBGP) 的 变化 形式 ， 有 效 地 将 AS 边界 上 BGP 代言 人 了 解 到 的 信息 再 次 分 发 到 
AS 中 所 有 其 他 路 由 器 上 。 (前 文 讨论 过 BGP 的 另 一 种 变化 形式 ， 即 运行 在 自治 系统 之 间 
的 外 部 BGP (eBGP).) iBGP 使 As 中 任何 路 由 器 在 发 送 分 组 到 任何 地 址 时 都 能 够 获知 最 
好 的 边界 路 由 器 以 供 使 用 。 同 时 ，AS 中 每 台 路 由 器 明白 如 何在 没有 注 和 人 信息 的 情况 下 ， 
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使 用 常规 的 域内 协议 到 达 每 台 边 界 路 由 器 。 通 过 将 两 类 信息 合并 ，AS 中 的 每 台 路 由 器 都 
能 够 确定 所 有 前 级 相应 的 下 一 跳 。 | 

在 图 4-9 中 给 出 了 一 个 简单 网 络 来 表示 单个 AS， 看 看 它 是 如 何 工作 的 。 这 里 有 三 台 
边界 路 由 器 ， 分 别 是 A、D 和 下。 路 由 器 向 其 他 AS 发 出 eBGP， 并 且 学 习 如 何 到 达 不 同 的 
前 级 。 这 三 台 边界 路 由 器 通过 在 AS 所 有 路 由 器 中 建立 iBGP 会 话 网 格 来 相互 连接 ， 包 括 
与 内 部 路 由 器 B 和 C 建立 连接 。 让 我 们 把 目光 集中 在 路 由 器 B 如 何 建立 其 向 具有 其 他 前 
缀 的 目标 进行 转发 的 完整 视图 。 先 看 一 下 图 4-10 中 最 左 侧 的 表格 ， 里 面 显示 了 路 由 器 B 
从 其 iBGP 会 话 中 学 到 的 信息 。 它 学 到 了 一 些 经 过 路 由 器 A、D 和 正 有 最 佳 路 线 的 相应 前 
Seats. Am. KA AS 中 的 路 由 器 都 在 运行 一 些 域内 协议 ， 比 如 路 由 信息 协议 (RIP) 
或 开放 最 短路 径 优 先 (OSPF). (域内 协议 中 的 一 个 典型 术语 是 IGP 一 一 内 部 网 关 协 议 。) 
重 过 完整 的 分 段 协议 ，B 学 会 了 如 何 到 达 如 最 左 侧 表 中 所 列 的 那些 域内 的 其 他 节点 。 比 
如 ， 要 到 达 路 由 器 下，B 需要 向 路 由 器 C 发 送 分 组 。 最 后 ， 在 最 右 侧 的 表 中 ，B 同时 放置 
了 所 有 描述 ， 将 从 iBGP 学 到 的 外 部 前 级 信息 合成 起 来 。 这 些 iBGP 信息 包含 从 IGP 中 得 
到 的 内 部 路 由 器 到 边界 路 由 器 的 信息 。 因 此 ， 如 果 一 个 像 18.0/16 这 样 的 前 缀 是 通过 边界 
路 由 器 可 达 的 ， 而 且 最 佳 内 部 路 径 是 通过 C 到 达 也， 那么 接 下 来 所 有 目标 为 18. 0/16 的 分 
组 将 首先 发 向 C。 利 用 这 种 方法 ， 所 有 AS 中 的 路 由 器 可 以 为 所 有 通过 其 他 AS 中 边界 路 
由 器 可 达 的 前 缀 建立 完整 的 路 由 表 。 





发 往 /来 自 
| 其 他 自治 系统 
发 往 /来 自 18. 0/16 E A A 
i 128. 34/16 | D D c 
OERA a utes 
128. 69. N16) A 可 本 | 
AS 的 BGP 表 路 由 器 B 的 ICP 表 





o | C 


REIRA : ee : 
Ber a al. a eee 
图 4-9 域内 和 域 间 路 由 举例 。 所 有 路 由 器 路 由 器 的 合成 表 
运行 iBGP 和 IRP， 边 界 路 由 器 (A, D, E) 图 4-10 路 由 器 B 的 BGP 路 由 表 、 


运行 eBGP 到 达 其 他 AS IGP 路 由 表 和 合成 表 


4.1.3 IP 版 本 6 (IPv6) 


从 很 多 方面 来 看 ， 建 立新 版 IP 的 动机 都 很 简单 ， 解决 IP 地 址 耗 尽 的 问题 。 划 分 子 网 
和 CIDR 有 助 于 抑制 因特网 地 址 空间 的 消耗 ， 也 有 助 于 控制 因特网 路 由 器 中 所 需 的 路 由 表 
信息 的 增长 。 然 而 ， 这 些 技术 终究 有 一 天 无 法 再 满足 需要 。 特 别 是 ， 实 际 上 不 可 能 达到 
100 为 的 地 址 利用 率 ， 因 此 在 第 40 亿 台 主机 连 到 因特网 之 前 ， 就 可 能 已 经 用 完了 地 址 空 
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间 。 即 使 我 们 能 够 使 用 所 有 40 亿 个 地 址 ， 也 不 难 想象 编号 耗 尽 的 情况 ， 现 在 IP 地址 不 仅 
分 配给 典型 的 计算 机 ， 还 分 配给 手机 、 人 所 有 这 些 可 能 性 都 说 明 
最 终 需 要 一 个 比 32 位 提供 的 更 大 的 地 址 空间 。 

1. 历史 观点 | 

IETF 从 1991 年 开始 就 看 到 了 IP 地 址 空 es a ae eee 
F IP 地 址 携 融 在 每 个 IP 分 组 的 首部 中 ， 因 此 地 址 尺寸 的 增长 使 得 IP 首部 必须 改变 
意味 着 需要 新 版 IP， 并 随 之 需要 用 于 因特网 中 每 台 主 机 和 路 由 器 的 新 软件 。 BA WER 
是 一 件 小 事 ， 而 是 需要 深思 熟 虑 的 大 改变 。 

定义 新 版 本 IP 的 成 果 称 为 下 一 代 IP 或 IPng。 随 着 工作 的 进展 ， 一 个 正式 的 版 本 号 被 
指定 ， 因 此 IPng 现 称 为 IPv6 (IP 版 本 6)。 注 意 ， 本 章 到 目前 为 止 讨 论 的 IP 版 本 是 第 4 | 
版 IPv4)。 编 号 不 连续 的 原因 是 版 本 号 5 用 于 几 年 前 的 一 个 实验 协议 。 

新 版 本 IP 的 显著 变化 引起 了 滚雪球 现象 。 网 络 设计 者 一 般 认 为 ， 如 果 所 设计 的 网 络 
规模 有 可 能 改变 ， 那 么 最 好 尽 可 能 同时 调整 IP 中 的 其 他 内 容 。 因 此 ，IETF 做 了 一 项 有 关 
希望 在 新 版 IP 中 加 入 特性 的 问卷 调查 。 除 了 提供 可 扩展 的 路 由 和 编 址 的 需求 外 ， 还 希望 
IPng 有 如 下 特性 : 

。 支持 实时 服务 。 

。 安全 性 支持 。 

。 自动 配置 〈 即 主机 自动 地 配置 自己 的 IP 地 址 和 域名 等 信息 的 能 力 )。 

。 增强 路 由 功能 ， 包 括 支 持 移 动 主机 ，。 

有 趣 的 是 ， 在 设计 IPv6 时 ，IPv4 不 具备 上 述 特性 中 的 许多 特性 ， 但 近年 来 IPv4 
对 这 些 特 性 的 支持 已 取得 了 进展 ， 而 且 两 种 协议 通 党 使 用 类 似 的 技术 。 可 以 说 ， 将 
IPv6 看 成 一 张 白 纸 的 自由 促进 了 IP 新 功能 的 设计 ， 并 且 这 些 功能 继而 被 改装 成 IPv4 
的 功能 

除了 以 上 列 出 的 特性 外 ，IPag 的 另 一 个 无 可 非议 的 特性 是 从 当 前 的 全 版 本 《IPv4) 
到 新 版 本 必须 有 一 个 过 渡 计 划 。 因 为 因特网 变 得 如 此 之 大 并 且 没 有 中 央 控 制 ， 完 全 不 可 能 
有 这 样 一 个 “国旗 纪念 日 "， 让 每 个 人 都 在 这 一 天 关闭 主机 和 路 由 器 来 安装 新 版 的 P. A 
此 ， 可 能 有 一 个 很 长 的 过 渡 期 有 些 主机 和 路 由 器 运行 IPv4， 有 些 同 时 运行 IPv4 和 
IPv6， 而 为 一 些 只 运行 IPv6 。 

IETF 任命 一 个 名 为 IPng 理事 会 的 委员 会 来 收集 所 有 IPng 需求 ， 并 且 评 价 将 变 成 
IPng 协议 的 所 有 建议 。 这 个 委员 会 收 到 很 多 建议 ， 其 中 一 些 建议 与 男 一 些 建议 合并 ， 最 
终 由 理事 会 选 出 一 个 建议 作为 IPng 的 基础 。 这 个 建议 叫 作 简 单 因特网 协议 扩充 (Simple 
Internet Protocol Plus, SIPP). SIPP 最 初 要 求 将 IP 地 址 扩大 一 倍 到 64 位 。 当 理事 会 选 
择 了 SIPP 时 ， 他 们 规定 了 几 种 改变 ， 其 中 一 项 是 将 地 址 再 扩大 一 倍 到 128 位 (16 字 节 )。 
这 次 ， 设置 版 本 号 为 6。 本 节 的 其 余部 分 将 描述 IPv6 的 一 些 主 要 特性 。 至 撰写 本 书 时 ， 
IPv6 的 大 多 数 关键 规范 在 IETF 中 正 处 于 建议 或 草拟 标准 的 阶段 。 

. 地址 和 路 由 | 

首先 ， 与 32 位 的 IPv4 不 同 ，IPv6 提供 128 位 的 地 址 空间 。 因 此 ， 如 果 地 址 分 配 有 效 
性 能 达到 100%, FE IPv4 中 可 以 最 多 编 址 40 亿 个 节点 ， 而 IJPv6 可 编 址 3.4 久 1038 个 节点 。 
但 是 ， 正 如 我 们 所 看 到 的 ，100% 的 地 址 分 配 效 率 是 不 可 能 的 。 在 其 他 编 址 方案 的 某 些 分 





析 中 ， 如 法 国 和 美国 电话 网 络 以 及 IPv4 的 编 址 方案 的 分 析 ， 都 可 找到 一 些 地 址 分 配 效 率 
的 经 验 数 据 。 基 于 从 这 项 研究 得 出 的 最 翡 观 的 效率 估计 ， 预 测 IPv6 地 址 空间 在 地 球 表面 
的 每 平方 英尺 上 提供 1 500 多 个 地 址 ， 看 起 来 它 似乎 可 以 很 好 地 为 我 们 服务 ， 即 使 金星 上 
的 烤 面 包机 也 有 IP 地 址 。 

3. 地 址 空间 分 配 


受益 于 IPv4 中 CIDR 的 使 用 ，IPv6 地 址 同样 表 4-1 1IPv6 Ba di dit Bi Se SP Be 
不 分 类 ， 但 是 地 址 空间 仍然 基于 前 导 比 特 的 不 同 前 A 用 途 
划分 方式 。 前 导 比特 说 明 IPv6 地 址 的 不 同 用 处 而 一 0 一 一 
不 是 说 明 不 同 的 地 址 分 类 。 当前 IPv6 的 地 址 前 组 1111 1111 多 播 地 址 
分 配 如 表 4-1 所 示 。 1111 1110 10 链 路 局 部 单 播 
这 种 地 址 空间 的 分 配 需要 一 些 讨 论 。 首 先 ， 一 = _ =e 


IPv4 的 三 种 主要 地 址 类 A, BAO 的 全 部 功能 包含 在 “其 他 ”范围 内 。 我 们 很 快 会 看 
到 ， 全 局 单 播 地 址 很 像 无 类 的 IPv4 地 址 ， 只 是 长 了 很 多 。 在 此 我 们 主要 感 兴趣 的 是 ,这 
种 重要 的 地 址 形式 占据 IPv6 所 有 地 址 空间 的 99% 。 (在 撰写 本 书 时 ，IPv6 单 播 地 址 的 分 
配 从 001 开头 的 块 开 始 ， 剩 余 的 地 址 空间 大 约 占 87%， 保留 给 未 来 使 用 .) 

多 播 地 址 空间 用 于 多 播 ， 因 此 与 IPv4 中 D 类 地 址 的 作用 类 似 。 注 意 ， 多 播 地 址 是 很 
容易 区 分 的 ， 它 们 开头 的 一 个 字 节 全 是 1。 我们 将 在 4. 2 节 看 到 如 何 使 用 这 些 地 址 。 
”， 链 路 局 部 使 用 地 址 的 思想 是 使 主机 构造 一 个 地 址 ， 能 够 适用 于 它 所 连接 的 网 络 ， 而 不 
必 关 心 全 局 地 址 唯一 性 问题。 我 们 下 面 将 看 到 ， 这 一 点 对 自动 配置 很 有 用 。 类 似 地 ， 站 点 
局 部 使 用 地 址 预定 为 允许 在 一 个 未 连 在 更 大 因特网 上 的 站 点 (如 专用 社团 网 ) 上 构造 有 效 
地 址 ， 并 且 不 需 考 虑 全 局 地 址 唯一 性 问题 。 

在 全 局 单 播 地 址 空间 中 有 一 些 重要 的 特殊 类 型 的 地 址 。 可 以 通过 将 32 位 的 IPv4 地 址 
前 面 加 0 扩展 到 128 位 ， 将 一 个 “兼容 IPv4 的 IPv6 地 址 ”分 配给 一 个 节点 。 一 个 只 能 理 
解 IPv4 的 节点 可 以 通过 对 IPv4 的 32 位 地 址 加 上 2 字 节 全 为 1 的 前 级 ， 再 在 前 面 加 0 直至 
扩展 到 128 位 ， 分配 一 个 “映射 IPv4 的 IPv6 地 址 ”。 这 两 种 特殊 的 地 址 类 型 用 于 IPv4 到 
IPv6 的 转换 〈 关 于 本 主题 的 讨论 见 相 关 主 题 ) 。 





IPv4 到 IPv6 的 过 ; 

从 IPv4 到 IPv6 过 渡 背 后 的 最 重要 思想 是 因特网 太 大 且 无 法 集中 管理 ， 所 以 不 可 能 有 
指定 的 “ 某 一 天 ”让 每 全 主机 和 路 由 器 都 从 IPv4 升级 到 IPv6。 因 此 ，IPv6 需要 按照 这 样 
的 方式 逐渐 部 署 : 只 理解 IJPv4 的 主机 和 路 由 器 可 以 继续 运行 尽 可 能 长 的 时 间 。 理 想 情况 
下 ，IPv4 节点 应 该 能 和 其 他 的 IPv4 或 某 些 有 IPv6 兼容 能 力 的 节点 对 话 。 而 且 ，IPv6 = 
机 应 该 能 和 其 他 IPv6 节点 不 定期 地 对 话 ， 即 使 它们 之 间 的 某 些 基础 结构 只 支持 IPv4。 已 
定义 了 两 种 主要 机 制 帮 助 实现 这 种 过 渡 : 双 栈 操作 (dual-stackoperation) 和 隧道 技术 
(tunneling) 。 

双 栈 的 思想 非常 简单 ; IPv6 ok Be 4 IPv6 也 运行 IPv4， 并 且 使 用 Version (版 本 ) 
字段 来 决定 哪 一 个 栈 应 处 理 到 达 的 分 组 。 在 这 种 情况 下 ，IPv6 地 址 可 以 与 IPv4 地 址 无 关 ，: 
或 者 可 以 是 本 市 前 面 描述 的 “映射 IPv4 的 IPv6 地 址 ”。 | 


基本 隧道 技术 在 4.1 节 描述 过 ， 它 将 了 了 分 组 作为 另 一 个 IPPANARKA® Cay- 
load) 进行 发 送 。 为 了 向 IPv6 过 渡 ， 隧 道 用 于 在 只 理解 IPv4 的 网 段 发 送 IPv6 分 组 。 这 意 
味 着 IPv6 分 组 被 封装 在 一 个 IPv4 的 首部 内 ， 首 部 中 有 隧道 端点 的 地 址 ， 穿 过 只 支持 IPv4 
的 网 段 ， 然 后 在 端点 解 去 封装 。 端 点 可 以 是 一 他 路 由 器 或 主机 ， 无 论 哪 种 情况 ， 它 必须 有 
支持 IPv6 的 能 力 以 处 理解 开封 装 后 的 IPv6 分 组 。 如 果 端 点 是 一 个 有 映射 IPv4 的 IPv6 地 
址 的 主机 ， 那 么 通过 从 IPv6 地 址 中 抽出 IPv4 地 址 ， 它 形 成 IPv4 首部 ， 就 可 以 自动 
地 使 用 隧 首 技术。 否则， 隧道 必须 进行 人 工 配置 。 在 这 种 情况 下 ， 封 装 节点 需要 知道 隧道 
A — 3a HY IPv4 地 址 ， 因 为 它 不 能 从 IPv6 首部 中 得 到 。 从 IPv6 的 角度 ,隧道 的 另 一 端 看 
起 来 像 是 一 个 正规 的 只 在 一 号 跨度 之 外 的 IPv6 节点 ， 尽 管 在 隘 道 的 两 个 端 点 之 问 可 能 存 
在 IPv4 基础 设施 的 许多 跳 点 ， 


4. 地址 的 等 号 表示 

和 使 用 IPv4 一 样 ， 书 写 IPv6 地 址 时 要 用 到 一 些 特殊 的 符号 。 标 准 的 表示 方式 是 x:x: 
x:X:X:X:X:X， 其 中 每 个 “x” 都 是 一 个 16 位 的 地 址 段 的 16 进 制 表示 。 例 如 

47CD;1234:4422; AC02:0022;1234;A456;0124 

任何 TP v6 地 址 均 可 用 这 种 符号 表示 。 由 于 IPv6 地 址 中 有 一 些 特殊 类 型 ， 因 此 在 特定 . 
情况 下 需要 一 些 特殊 的 符号 表示 。 例 如 ， 有 多 个 连续 0 的 地 址 可 以 表示 为 删 掉 所 有 这 些 0 
的 紧凑 形式 。 因 此 

47CD:0000;0000;0000:0000:0000; A456 :0124 
可 以 写成 
47CD: : A456 :0124 

显然 ， 为 了 避免 二 义 性 ， 这 种 缩写 形式 只 可 用 于 一 个 地 址 中 连续 多 个 0 的 集合 。 

由 于 两 类 包括 能 和 人 IPv4 地 址 的 IPv6 地 址 有 目 己 的 特殊 符号 ， 使 得 提取 IPv4 地 址 更 
为 容易 。 例 如 ， 一 台 主 机 的 IPv4 地 址 是 128. 96. 33. 81， 那 么 其 带 IPv4 映射 的 IPv6 地 址 
可 以 写成 

| , FFFF; 128. 96. 33. 81 

就 是 说 ， 后 32 位 按 [Pv4 的 符号 表示 书写 ， 而 不 是 以 冒号 相隔 的 一 对 16 进 制 数 。 注 
意 最 前 面 的 双 冒 号 表示 前 导 0。 

5. 爹 局 单 播 地 址 

至 此 ， 编 址 最 重要 的 事情 是 IPv6 必须 提供 普通 的 传统 单 播 编 址 。 为 做 到 这 一 点 ， 它 
必须 支持 新 主机 在 因特网 中 的 快速 增加 ， 并 在 因特网 中 的 物理 网 络 数 增长 时 ， 人 允许 按 可 扩 
展 的 方式 进行 路 由 。 因 此 ，IPv6 的 核心 是 单 播 地 址 分 配 计 划 ， 即 确定 那些 前 缀 为 001 的 地 
址 如 何 分 配给 服务 提供 商 、 自 治 系统 、 网 络 、 主 机 和 路 由 融 。 

”事实 上 ， 所 提出 的 IPv6 单 播 地 址 分 配 计划 非常 类 似 于 IPv4 中 CIDR 的 地 址 分 配 计 划 。 
为 了 明白 它 如 何 工 作 以 及 如 何 提 供 可 扩展 性 ， 我 们 先 定 义 一 些 新 的 术语 。 我 们 可 以 将 一 个 
非 中 转 AS 〈 即 桩 或 多 连接 AS) 看 作 一 个 用 户 (subscriber)， 并 且 可 将 一 个 中 转 AS 看 作 
一 个 提供 商 (provider)。 而 且 ， 我 们 可 进一步 将 提供 商 划 分 为 直接 (direct) 和 非 直 接 
(indinect) 两 种 。 前 者 直接 与 用 户 相 连 。 后 者 主要 连接 其 他 提供 商 ， 并 不 直接 与 用 户 相 
连 ， 通 常 叫 作 主 干 网 (backbone network) E 


有 了 这 些 定义 ， 我 们 看 到 因特网 并 不 只 是 AS 的 任意 互联 集合 ， 它 有 一 些 内 在 层次 。 
困难 在 于 ， 在 没有 发 明基 于 层次 性 进行 工作 的 新 机 制 的 情况 下 ， 如 何 使 用 这 种 层次 性 ， 就 
像 EGP 中 发 生 的 那样 。 例 如 ， 当 一 个 用 户 连接 到 主干 网 上 ， 或 当 一 个 直接 提供 商 开 始 连 
接 其 他 多 个 提供 商 时 ， 直 接 的 和 非 直接 的 提供 商 之 间 的 区 别 就 会 变 得 模糊 。 

和 CIDR 一 样 ，IPv6 地 址 分 配 计划 的 目标 是 提供 路 由 信息 的 聚合 以 减少 域内 路 由 器 的 
负担 。 另外， 关键 思想 是 使 用 地 址 前 级 〈 即 在 地 址 高 端的 一 系列 连续 的 比特 ) 来 聚合 到 大 
量 网 络 甚 至 是 大 量 AS 的 可 达 性 信息 。 做 到 这 一 点 的 主要 方法 是 为 直接 提供 商 分 配 一 个 地 
址 前 缀 ， 然 后 给 它 的 用 户 分 配 一 个 以 此 前 缀 开始 而 比 之 更 长 的 前 级。 这 正 是 我 们 在 图 3-22 
中 看 到 的 。 这 样 ， 一 个 提供 商 可 以 向 它 的 所 有 用 户 通知 一 个 前 级 。 E 
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内 的 节点 编号 。 这 是 一 项 很 繁重 的 任务 ， 足 以 阻止 多 数 人 不 断 更 换 提供 商 。 因 此 ， 人 们 正 
在 研究 其 他 编 址 方案 (如 地 理 编 址 )， 其 中 站 点 的 地 址 是 其 位 置 的 函数 而 不 取决 于 它 连接 
的 提供 商 。 然 而 现在 基于 提供 商 的 编 址 对 于 有 效 地 完成 路 由 来 说 是 必需 的 。 

注意 ， 虽 然 IPv6 的 地 址 分 配 本 质 上 等 价 于 引入 CIDR 的 IPv4 地 址 分 配方 案 ， 但 是 
IPv6 有 一 个 显著 的 优点 ， 即 不 需要 让 大 量 前 期 已 分 配 的 地 址 适应 此 方案 。 

问题 是 在 层次 结构 中 其 他 层 进 行 层 次 聚合 是 否 有 意义 ? 例如 ， 所 有 提供 商都 应 该 从 所 
连接 的 主干 网 的 前 级 中 获取 它们 的 地 址 前 缀 吗 ? 如 果 大 多 数 提供 商 连 接 在 多 个 主干 网 上 ， 
这 可 能 就 变 得 无 意义 了 。 而 且 ， 由 于 提供 商 数 比 站 点 数 少 得 多 ， 在 这 层 中 进行 聚合 的 好 处 
就 更 小 了 。 

进行 聚合 的 意义 在 于 国界 或 洲 界 。 各 大 洲 的 边界 形成 因特网 拓扑 中 的 自然 划分 ， 例 
如 ， 如 果 欧 洲 的 地 址 都 有 一 个 共同 的 前 级 ， 那 么 就 可 以 完成 大 量 的 聚合 ， 因 此 其 他 洲 的 大 
多 数 路 由 器 只 需 一 条 路 由 表 记 录 来 表示 所 有 带 欧 洲 前 级 的 网 络 ， 欧 洲 的 提供 商 将 会 选择 以 
欧洲 前 缀 开始 的 前 级 。 使 用 这 种 方案 ,一 个 IPv6 地 址 看 起 来 可 能 如 图 4-11 所 示 。Regis- 
tryID (注册 号 ) 可 以 是 一 个 分 配给 欧洲 地 址 注册 的 标识 符 ， 其 他 洲 或 国家 也 分 配 不 同 的 
ID。 注 意 ， 这 种 情况 下 前 缀 将 有 不 同 的 长 度 。 例 如 ， 客 户 较 少 的 提供 商 的 前 缀 会 比 客户 较 

多 的 提供 商 的 前 缀 长 (并 因此 有 较 少 的 总 体 可 用 地 址 空间 )。 
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图 4-11 基于 提供 商 的 IPv6 单 播 地 址 


当 一 个 用 户 连接 在 多 个 提供 商 上 时 ， 情 况 较 难处 理 。 这 个 用 户 应 该 为 其 站 点 使 用 哪个 
MA? 此 问题 没有 完美 的 解决 办 法 。 例 如 ， 假 设 一 个 用 户 连 接 在 两 个 提供 商 X 和 了 上。 
如 果 用 户 从 义 得 到 前 级 ， 那 么 Y 不 得 不 通知 一 个 和 它 的 其 他 订户 无 关 的 前 级， 因而 无 法 
聚合 。 如 果 用 户 以 和 的 前 绥 为 其 部 分 AS 的 编号 而 以 Y 的 前 缀 为 男 一 部 分 AS 的 编号 ， 那 
么 当 一 个 提供 商 的 连接 切断 时 ， 就 要 冒 一 半 站 点 不 可 达 的 危险 。 当 义 和 Y 阅 有 多 个 共同 用 
” 户 时 ， 效 果 较 好 的 一 种 办 法 是 让 它们 之 间 有 三 种 前 级 ; 一 种 用 于 只 属于 义 的 用 户 ， 一 种 用 
于 只 属于 YY 的 用 户 ,， 男 一 种 用 于 既是 义 也 是 站 的 用 户 的 站 点 。 
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> 组 格式 


尽管 IPv6 在 多 个 方面 扩展 了 IPv4, 但 它 的 首部 格式 实际 上 更 为 简单 。 这 种 简单 性 是 
由 于 从 协议 中 删除 了 不 必要 的 功能 。 图 4-12 给 出 了 IPv6 的 分 组 首部 。( 为 了 与 IPv4 比较 ， 
请 对 照 图 3-16 所 示 的 首部 格式 。) a Ee 
与 很 多 首部 一 样 ， 此 首部 格式 也 以 Version (版 本 ) 字段 开始 ， 因 为 是 IPv6， 所 以 设 


为 6。IPv6 和 IPv4 的 Version 字段 都 在 首部 的 0 4 6 RS 31 
开始 位 置 ， 使 得 首部 处 理 软件 能 够 立即 决定 要 | 版 本 |- 通信 类 别 whe z 
寻找 哪 种 首部 格式 。TafficClass 〈 通 信 类 别 ) | 有效 荷载 长 度 | 下 -首部 | 跨 数 上 限 ， 

i 


“i 


和 FlowLabel 〈 流 标签 》 字 段 都 与 服务 质量 问 PO ee at 
题 有 关 ， 将 在 6. 5 节 中 讨论 | | 

~  PayloadLen (有效 载荷 长 度 ) 字段 给 出 不 
包括 IPv6 首部 在 内 的 分 组 的 长 度 ， 按 字 节 计 
数 。NextHeader (下 一 个 首部 ) 字段 明确 地 代 
#8 IPv4 中 的 IP 选项 和 Protocol (协议 ) FE. 

如 果 需 要 选项 ， 那 么 它们 被 携带 在 IP 首部 之 后 
的 一 个 或 多 -71 个 特 原 首 部 中 ， 这 由 NextHeader 
字段 中 的 值 指出 。 如 果 没 有 特殊 首部 ，Next- 
Header 字段 是 识别 运行 在 IP 之 上 的 更 高 层 协 
议 (a TCP 或 UDP) 的 多 路 分 解密 钥 ， 即 它 
和 IPv4 的 Protocol 字段 的 作用 相同 。 同 时 ， 分 
段 被 作为 一 个 选项 首部 来 处 理 ， 即 IPv4 中 有 关于 4 分 段 的 字段 不 包括 在 IPv6 首部 中 ， eee 
Limit GRACED FEMUR IPvi 的 TTL CARD FB, RAMEN T RE WR 
际 使 用 方式 。 

最 后 ， 首部 的 大 部 分 被 源 地 址 和 目的 地 址 所 占据 ， 各 为 16 字 节 (128 位 ) 长， 这 样 ， 
IPv6 首部 长 度 总 是 40 字 节 。 考 虑 一 下 ，IPv6 地 址 的 长 度 是 IPv4 地 址 长 度 的 4 倍 ， 而 首 
部 的 差异 尤为 明显 ，IPv4 的 首部 若 没有 选项 只 有 20 字 节 长 。 ee sends 

IPv6 处 理 选 项 的 方法 比 IPv4 有 很 大 改进 。 在 IPv4 F, 如 果 存 在 选项 ， 每 台 路 由 器 都 
得 解析 整个 选 顺 字段 ， 看 选项 是 否 相 关 。 这 是 因为 选项 作为 type, length, value) ( (类 
型 ， 长 度 ， 值 ) 的 无 序 集 合 隐藏 在 P 首部 的 末尾 。 相 比 之 下 ， 在 IPv6 中 ， 如 果 选 项 存 
在 的 话 ，IPv6 将 它 看 作 是 必须 以 特定 顺序 出 现 的 扩展 首部 Cextension header)。 这 就 意味 
Seed a ee cae 与 它 相 关 ， 在 多 数 情 况 下 它们 是 不 相关 的 。 通 

这 可 以 从 NextHeader 字段 上 判断 出 来 。 这 样 的 结果 是 ，IPv6 中 选项 处 理 的 效率 较 
高 ， ， 这 是 路 由 器 性 和 8 的 一 个 重要 因素 。 男 外 ， 将 选项 作为 扩展 首部 这 种 新 格式 意味 着 它们 
可 以 为 任意 长 度 ， 而 在 IPv4 中 则 被 限制 为 最 多 44 FE. a AE 些 
选项 。 

每 个 选项 有 它 自 己 的 扩展 首部 类 型 ， 每 个 扩展 首部 的 类 型 由 前 面 首部 中 的 人 Next Head: 
er 字段 值 来 标识 ， 并 且 每 个 扩展 首部 也 包含 一 个 NextHeader 字段 来 标识 跟 在 它 后 面 的 首 
部 。 最 后 一 个 扩展 首部 后 面 跟着 一 个 传输 层 首部 (如 TCP)， 这 时 NextHeader 字段 的 值 
与 IPv4 首部 中 Protocol 字段 的 值 相同 。 因 此 ，NextHeader 字段 有 双重 职责 ; 它 既 可 以 标 
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识 随后 的 扩展 首部 类 型 ， 又 可 在 最 后 的 扩展 首部 中 作为 多 路 分 解 键 标识 运行 在 IPv6 之 上 
的 更 高 层 协议 。 | | | 

考虑 如 图 4-13 所 示 的 分 片 首部 示例 。 此 首部 提供 的 功能 类 似 于 3. 2. 2 节 描 述 的 IPv4 
首部 中 的 分 片 字段 ， 但 是 它 只 在 需要 拆 分 时 出 现 。 假 设 它 是 唯一 出 现 的 扩展 首部 ， 那 么 
IPv6 首部 的 NextHeader 字段 值 将 是 44， 这 个 值 被 分 配 用 来 表示 分 片 首部 。 分 片 首部 的 
NextHeader 字段 自身 包含 一 个 描述 其 后 跟随 首部 的 值 。 此 外 假设 不 存在 其 他 扩展 首部 ， 
那么 下 一 个 首部 可 能 就 是 TCP 首部， 这 将 导致 NextHeader 字段 的 值 为 6， 就 像 Protocol 
字段 在 IPv4 中 那样 。 如 果 分 片 首部 后 面 还 跟着 一 个 首部 〈 比 如 认证 首部 )， 那 么 分 片 首部 
的 NextHeader 字段 值 将 为 51. 
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7. 自动 配置 

尽管 因特网 以 惊人 的 速度 度 增长， 但 阻碍 这 项 技术 被 更 快 接受 的 一 个 因素 是 连 人 因特网 
通常 需要 一 定 的 系统 管理 专业 知识 。 特 别 是 ， 连 在 因特网 上 的 每 台 主 机 至 少 都 需要 配置 一 
些 信息 ， 如 合法 的 IP 地址、 其 所 连接 链 路 的 子 网 掩 码 以 及 名 字 服 务 带 的 地 址 。 这 样 ， 就 
不 可 能 将 一 台新 开 箱 的 计算 机 不 预先 配置 就 连 到 因特网 上 。 因 此 ，IPv6 的 目的 之 一 是 提 
供 自动 配置 支持 ， 有 时 叫 作 即 揪 即 用 (plug-and-play) 操作 。 

如 我 们 在 3. 2. 7 节 所 看 到 的 ，IPv4 也 可 以 进行 自动 配置 ， 但 要 看 是 否 存在 一 个 能 
将 地 址 和 其 他 配置 信息 分 发 到 DHCP 客户 端的 服务 器 。IPv6 中 更 长 的 地 址 格式 有 助 
于 提供 一 种 有 用 的 新 的 自动 配置 形式 ， 叫 作 无 状态 (stateless) 自动 配置 ， 它 不 需要 
服务 器 。 | . a” ) 

回忆 一 下 ，IPv6 的 单 播 地 址 是 分 层 的 ， 最 低 有 效 部 分 是 接口 号 。 这 样 ， 我 们 可 以 将 
自动 配置 问题 划分 为 两 部 分 : 

“1) 获取 主机 所 连接 的 链 路 上 具有 唯一 性 的 接口 号 。 

2) 获取 此 子 网 的 正确 地 址 前 组 。 | 

第 一 部 分 比较 容易 实现 ， 因 为 一 条 链 路 上 每 台 主 机 必须 有 唯一 的 链 路 层 地 址 。 例 如 ， 
以 太 网 上 的 所 有 主机 有 一 个 唯一 的 48 位 以 太 网 地 址 。 它 可 以 通过 加 上 表 4-1 中 适当 的 前 
2% (11111110 10)， 并 在 后 面 补 上 足够 的 0 将 其 变 为 一 个 128 位 的 合法 链 路 局 部 使 用 地 
址 。 J 例如 打印 机 或 一 个 小 型 无 路 由 器 且 不 与 其 他 任何 网 络 相 连 的 网 络 中 
的 主机 ， 这 个 地 址 可 能 就 足够 了 。 那 些 需 要 一 个 全 局 合法 地 址 的 设备 依赖 同一 条 链 路 上 的 
a BA ROR TALI EIA, FR 
前 缀 是 按照 保证 在 末尾 有 足够 的 空间 (如 48 位 ) 来 添加 一 个 合适 的 链 路 层 地 址 的 方法 选 
择 的 。 

把 48 位 长 的 链 路 层 地 址 嵌入 IPv6 地 址 的 能 力 ， 是 选择 如 此 长 的 地 址 长 度 的 原因 之 

。128 位 不 仅 允 许 租 人 ， 而 且 为 我 们 上 面 讨论 的 多 层 编 址 留 有 足够 的 空间 。 
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尽管 TPv6 的 引入 是 出 于 对 IP 地址 使 用 的 增长 将 导致 地 址 空 SHAW BR. 12% — 
种 技术 作为 节省 IP 地 址 空 间 的 一 种 方法 正在 流行 起 来。 这 种 技术 是 网 络 地 址 转换 
(Network Address Translation, NAT), @wWS) E 使 用 将 可 能 在 很 大 程度 上 延缓 部 署 
IPv6 的 需求 。 人 们 通常 认为 NAT 是 “结构 不 规范 的 ”， 但 是 它 也 是 网 络 发 展 中 不 容 忽 
视 的 事物 。 | San 

NAT 的 基本 思想 是 因特网 上 所 有 可 能 彼此 通信 的 主机 不 需要 全 球 唯 一 的 地 址 。 一 全 
主机 可 以 设置 一 个 无 需 全 球 唯 一 的 “私有 地 址 ”， 它 只 要 求 在 一 定 的 范围 内 唯一 即 可 ， 
如 在 主机 所 在 的 公司 网 络 内 唯一 。A 类 网 络 号 o 因为 这 个 网 络 号 曾 分 
配给 APPANET 网 ,. 所 以 不 再 作为 全 球 唯一 的 地 址 使 用 。 只 要 一 台 主 机 仅 与 公司 网 络 内 
的 其 他 主机 进行 通信 ， 局 部 唯一 地 址 就 足够 了 。 jo GN AL WL DLA EAL A a 
en sa la dais 
某 个 全 球 唯 一 地 址 。 公 司 肉 一 小 部 分 主机 可 能 同时 需要 NAT 盒 的 服务 ， 因 此 NATE 
要 一 个 小 的 全 球 唯一 地 址 池 ， 其 容量 远 比 公司 内 每 他 主机 都 需要 一 a i 
目 小 。 
dik, AAV —A NAT a AM SALW IP Oe, HE IP 
址 从 私有 地 址 (如 10.0.1.5) 转换 为 全 球 唯 一 地 址 (如 171. 69. 210. 246)。 当 有 来 自 于 远 
程 主机 的 目的 地 址 为 171. 69.210.246 的 分 组 到 达 时 ，NAT 盒 将 此 目的 地 址 转换 为 
10.0.1.5， 并 把 分 组 转发 到 主机 。 

NAT 的 主要 缺点 是 违反 了 JP 服务 模型 的 一 个 关键 假设 一 一 所 有 节点 都 有 全 球 唯 一 地 
址 。 事 实证 明 很 多 应 用 和 协议 都 依赖 这 个 假设 。 特 别 是， 很 多 运行 在 IP 上 的 协议 (如 
FTP 之 类 的 应 用 协议 ) 在 消息 中 携带 IP 地 址 。 如 果 高 层 协 议 工 作 正 常 ， 这 些 地 址 也 需要 
由 NAT 爹 来 转换 ， 因 此 NAT 使 就 变 得 比 简单 的 IP 首部 翻译 带 更 复杂 。 同 时 还 要 求 它 能 
理解 越 来 越 多 的 高 层 协议 ， 因 此 又 产生 了 部 署 新 应 用 的 障碍 。 

RAKHI, NAT AAN A MAEM NAT PA AA He AR, 由 于 
NAT 设备 缺少 映射 机 制 ， 因 此 没有 公共 地 址 可 供 连接 请 求 发 送 种 情况 使 得 IP 语音 等 
应 用 的 部 署 更 为 复杂 

几乎 可 以 肯定 地 说 ， 如 果 不 使 用 NAT， 网 络 的 情况 会 更 好 ， 但 是 NAT 看 起 来 似乎 
不 可 能 消失 。IPv6 的 广泛 部 署 可 能 会 改善 这 一 状况 ， 但 现在 的 NAT 因为 其 他 因素 ， 其 
流行 范围 超越 了 最 初 的 设计 。 例 如 ， 如 果 整 个 因特网 具有 (私有 的 ) 下 地 址 ， 且 和 提供 
商 的 地 址 空间 无 关 ， 那 么 就 可 以 很 轻易 地 更 换 服务 提供 商 。 然 而 ，NAT 盒 并 不 是 一 个 
针对 安全 威胁 的 真正 的 解决 方案 ， 将 地 址 放 在 NAT 盒 中 并 不 能 表明 其 具有 抵抗 简单 攻 
击 的 保护 等 级 。 随 着 未 来 PV 部 署 步伐 的 加 快 ， 看 看 NAT 如 何 发 展 将 会 是 非常 有 趣 
的 事 。 


a 
a 


高 级 路 由 能 力 
IPv6 WA 个 扩展 首部 是 路 由 首部 ， 如 果 没 有 这 个 首部 ，IPv6 的 路 由 与 在 CIDR 下 
IPv4 的 路 由 没有 多 大 区 别 。 路 由 首部 包括 一 个 IPv6 地 址 表 ， 描 述 分 组 到 达 目 标 途 中 所 经 
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过 的 节点 或 拓扑 区 域 。 例 如 ， 一 个 拓扑 区 域 可 以 是 一 个 主干 网 提供 商 网 络 。 在 基于 分 组 接 
分 组 的 传送 机 制 中 ， 实 现 提供 商 选择 的 一 种 方法 是 指定 分 组 必须 经 过 该 网 络 。 这 样 ， 一 台 
主机 可 以 让 一 些 分 组 经 过 一 个 便宜 的 提供 商 ， 一 些 分 组 经 过 提供 高 可 靠 性 的 提供 商 ， 还 有 
一 些 分 组 经 过 主机 认为 能 提供 安全 性 的 提供 商 。 

为 了 提供 指定 拓扑 实体 而 不 是 单个 节点 的 能 力 ，IPv6 定义 了 一 个 任 播 (anycast) 地 
址 。 一 个 任 播 地 址 被 分 配给 一 组 接口 ， 发 往 这 个 地 址 的 分 组 将 到 达 其 中 “最 近 的 ”一 个 接 
口 ， 哪 个 最 近 由 路 由 协议 来 决定 。 例 如 ， 可 以 给 主干 网 提供 商 的 所 有 路 由 器 分 配 一 个 任 播 
地 址 ， 在 路 由 首部 中 将 使 用 它 。 

我 们 也 希望 任 播 地 址 和 路 由 首部 能 够 用 于 提供 对 移动 主机 的 高 级 路 由 支持 。 提 供 这 项 
支持 的 详细 机 制 还 在 制定 过 程 中 。 

9. 其 他 特性 

正如 在 本 节 一 开始 所 提 到 的 ， 开 发 IPv6 的 基本 动机 是 支持 因特网 的 持续 增长 。 然 而 ， 
一 旦 IP 首部 不 得 不 因 地 址 而 变化 ， 就 到 了 我 们 做 更 多 改变 的 时 候 ， 包 括 我 们 刚才 描述 的 
自动 配置 和 源 定 向 路 由 。IPv6 包含 几 个 附加 特性 ， 大 部 分 将 在 本 书 的 其 他 章节 介绍 ， 
4. 4. 2 节 讨 论 移动 性 ， 网 络 安全 是 第 8 章 的 主题 ， 为 因特网 提出 的 一 种 新 服务 模型 在 6.5 
节 描 述 。 值 得 注意 的 是 对 于 上 述 方面 ，IPv4 和 IPv6 的 能 力 几 乎 没有 什么 本 质 区 别 ， 因 此 
IPv6 的 主要 驱动 力 仍然 是 满足 更 长 地 址 的 需求 。 


正如 我 们 在 第 2 章 中 看 到 的 ， 像 以 太 网 这 样 的 多 点 访问 网 络 用 硬件 实现 多 播 。 然 而 ， 
许多 应 用 需要 在 互联 网 上 具有 一 种 广泛 的 多 播 能 力 。 比 如 ， 当 一 个 电台 通过 因特网 广播 
时 ， 同 样 的 数据 必须 被 发 送 到 有 用 户 打 开 收 音 机 并 调 到 这 个 台 的 所 有 主机 上 。 在 这 个 例子 
里 ， 连 接 方式 是 一 到 多 。 其 他 一 到 多 的 应 用 包括 传输 同一 段 新 闻 、 实 时 股票 价格 以 及 软件 
升级 给 多 台 主 机 等 。 还 有 很 多 应 用 连接 模式 是 多 对 多 ， 比 如 多 媒体 远程 会 议 、 在 线 多 用 户 
游戏 以 及 分 布 式 仿真 。 在 这 些 示 例 中 ， 一 个 组 的 成 员 从 多 个 发 送 者 那里 得 到 信息 ， 基 本 上 
是 每 个 发 送 者 那里 。 对 任 一 个 发 送 者 来 说 ， 它 们 都 能 收 到 同样 的 信息 。 | 

在 正常 的 网 络 连接 中 ， 每 个 分 组 必须 包含 地 址 ， 并 被 发 送 到 一 个 单独 的 主机 ， 因 此 不 
能 很 好 地 满足 每 一 个 应 用 程序 。 如 果 一 个 应 用 程序 可 以 将 数据 发 送 到 一 个 组 ， 那 么 它 将 发 
送 独立 的 具有 认证 数据 的 分 组 给 组 的 每 个 成 员 。 这 些 宛 余 流 量 占用 了 比 必需 流量 更 大 的 带 
宽 。 而 且 ， 宛 余 流 量 并 非 均匀 分 布 ， 而 是 围绕 发 送 主机 ， 并 可 能 轻易 超过 发 送 主机 及 附近 
网 络 和 路 由 器 的 通信 和 能力。 | k 

为 了 更 好 地 支持 多 对 多 和 一 对 多 的 连接 ，IP 提供 了 一 种 IP 级 模拟 多 播 用 于 多 点 访问 
网 络 ， 如 第 2 章 中 提 到 的 以 太 网 。 现 在 我 们 介绍 IP 多 播 的 概念 ， 同 时 也 需要 用 一 个 术语 
来 描述 之 前 讨论 的 传统 一 对 一 IP 服务 ， 这 种 服务 称 为 单 播 (unicast) 。 

基本 的 IP 多 播 模型 是 基于 多 播 组 (group) 的 多 对 多 模型 ， 每 个 组 都 有 自己 的 IP 多 
播 地 址 (multicast address) 。 组 里 的 主机 收 到 任何 的 分 组 拷贝 都 会 发 送 到 组 的 多 播 地 址 。 
一 台 主 机 可 以 在 多 个 组 里 ， 利 用 下 面 将 要 讨论 的 协议 也 可 以 通过 局 部 路 由 器 自由 地 加 入 或 
者 离开 组 。 因 此 ， 如 果 我 们 将 单 播 地 址 关联 于 一 个 节点 或 者 一 个 界面 ， 那 么 多 播 地 址 就 关 
联 于 一 个 抽象 的 组 ， 组 的 成 员 随时 间 而 变化 。 而 且 ， 原 始 多 播 服务 模型 允许 任何 主机 向 组 





发 送 多 播 流量 ， 主 机 没 必要 成 为 一 个 组 的 成 员 ， 但 可 能 有 任意 数量 的 发 送 者 加 入 到 一 个 已 
知 的 组 。 | | 

利用 IP 多 播发 送 认证 分 组 到 组 内 的 每 个 成 员 时 ， 主 机 发 送 一 个 分 组 的 单个 拷贝 给 组 
的 多 播 地 址 。 发 送 主机 不 需要 知道 各 个 组 成 员 的 单 播 IP 地 址 ， 因 为 正如 我 们 知道 的 ， 这 
些 知识 存在 于 互联 网 上 的 路 由 器 中 。 同 样 ， 发 送 主 机 不 需要 发 送 多 个 分 组 拷贝 ， 因 为 路 由 
器 无 论 何 时 都 会 在 需要 的 时 候 将 分 组 转发 给 多 个 链接 。 相 比 于 使 用 单 播 IP 传送 相同 的 分 
组 给 多 个 接收 者 ，IP 多 播 更 可 测 ， 因 为 它 消除 了 一 些 需 要 在 同一 条 链 路 上 发 送 多 次 的 宛 
余 流 量 ， 特 别 是 靠近 发 送 主机 的 链 路 。 

IP 的 原始 多 对 多 多 播 已 经 增强 为 可 支持 一 对 多 的 多 播 形 式 。 在 一 对 多 多 播 模型 中 ， 
即 特定 源 多 播 〈SSM) ， 接 收 主机 指定 一 个 多 播 组 和 特定 发 送 主机 。 接 收 主机 仅 将 从 特定 
主机 收 到 的 多 播 地 址 发 送 给 特定 的 组 。 许 多 因特网 多 播 应 用 (如 无 线 电 广播 ) 适合 SSM 
模式 。 为 了 与 SSM ME, IP 原始 多 对 多 模型 有 时 被 称 为 任意 源 多 播 (ASM)， 

主机 通过 使 用 特定 协议 与 本 地 路 由 器 通信 ， 向 局 部 路 由 器 发 送 加 入 或 退出 多 播 组 的 信 
号 。 在 IPv4 中 ， 该 协议 是 因特网 组 管理 协议 IGMP); 在 IPv6 F, CE S RARAN 
(MLD) 。 路 由 器 有 责任 使 多 播 行 为 相对 主机 来 说 是 正确 的 。 因 为 一 台 主 机 可 能 退出 多 播 
组 失败 〈 如 遇 到 冲突 或 其 他 错误 时 ) ， 路 由 器 定期 选 出 局 域 网 以 确定 哪些 组 仍然 对 所 关联 
的 主机 有 兴趣 。 


4.2.1 多 播 地 址 


IP 地 址 将 一 个 子 空间 保留 给 多 播 地 址 。 在 IPv4 中 ， 这 些 地 址 被 分 配 在 D 类 地 址 空间 
中 ， 在 IPv6 中 也 有 一 部 分 地 址 空间 〈 见 表 4-1) 是 保留 给 多 播 组 地 址 的 。 一 些 多 播 区 域 中 
的 子 空间 是 留 给 域内 多 播 的 ， 因 此 ， 它 们 可 以 由 不 同 的 域 单独 重用 。 

因此 ， 当 我 们 忽略 为 所 有 多 播 地 址 共享 的 前 缀 时 ，IPv4 中 有 28 位 可 能 的 多 播 地 址 。 
这 带 来 了 一 个 问题 ， 即 何 时 可 以 在 局 域 网 里 使 用 硬件 多 播 。 就 拿 以 太 网 来 说 ， 当 我 们 名 
略 共 享 前 缀 时 ， 以 太 网 多 播 地 址 只 有 23 位 。 换 句 话 说 ， 要 利用 以 太 网 多 播 ， 必 须 将 28 
位 的 IP 多 播 地 址 映射 到 23 位 以 太 网 多 播 地 址 。 实 施 的 时 候 采 用 了 低 23 位 的 IP 多 播 地 
址 作为 其 以 太 网 多 播 地 址 ， 而 忽略 了 高 5 位 。 因 此 ，32 fe (2°) 下 地 址 就 映射 到 了 以 
太 网 地 址 。 | | 

当 以 太 网 的 一 台 主 机 上 加 入 一 个 多 播 组 时 ， 它 需要 配置 以 太 网 接口 以 接收 由 相 
应 的 以 太 网 多 播 地 址 发 来 的 分 组 。 不 幸 的 是 ， 如 果 主 机 被 路 由 到 那个 以 太 网 ， 将 导 人 致 接 
收 主机 不 仅 接收 了 其 想得到 的 多 播 流量 ， 而 且 也 会 收 到 映射 到 相同 的 以 太 网 地 址 的 其 他 
31 个 卫 多 播 组 的 流量 。 因 此 ， 接 收 主机 必须 检查 卫 报头 的 所 有 多 播 分 组 ， 以 确定 该 分 
组 是 否 真 正 属 于 那个 多 播 组 。 总 之 ， 不 匹配 的 多 播 地 址 大 小 意味 着 即便 主机 对 流量 要 到 
达 的 多 播 组 没有 兴趣 ， 多 播 流量 也 会 对 该 主机 产生 负担 。 地 运 的 是 ， 在 某 些 交换 网 GH 
交换 式 以 太 网 ) ， 利 用 路 由 器 对 不 需要 的 分 组 进行 识别 并 抛弃 的 策略 ， 这 个 问题 就 可 以 
得 到 缓解 。 

一 个 令 人 困惑 的 问题 是 如 何 使 发 送 方 和 接收 方 学 习 将 哪些 多 播 地 址 放 在 首位 。 这 通常 
需要 一 些 超出 现 有 网 络 约束 的 手段 ， 有 一 些 相当 复杂 的 工具 可 在 因特网 上 通知 组 地 址 。 其 
中 一 个 例子 是 sdr， 将 在 9. 2. 1 PHE. 
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4.2.2 多 播 路 由 (DVMRP、 PIM, MSDP) | 


对 于 任何 IP 地 址 而 言 ， 路 由 器 的 单 播 转 发 表 显 示 了 哪些 连接 可 以 用 来 转发 单 播 分 组 。 
为 了 支持 多 播 ， 路 由 器 必须 有 额外 的 多 播 转发 表 ， 基 于 多 播 地 址 来 显示 哪些 〈 一 般 都 多 于 
一 个 ) 连接 可 以 用 来 转发 多 播 分 组 〈 如 果 要 通过 多 个 连接 来 转发 的 话 ， 路 由 器 将 复制 这 些 
分 组 ) 。 因 此 ， 如 果 单 播 转发 表 指 明了 一 套路 径 ， 那 么 多 播 转发 表 就 指明 了 一 套 树 结构 : 
多 播 分 发 树 (multicast distribution tree) 。 而 且 ， 为 支持 特定 源 多 播 (事实 上 的 结果 是 ， 
对 于 任意 源 多 播 的 某 些 类 型 )， 多 播 转发 表 必 须根 据 多 播 地 址 和 CARR) 源 IP 地 址 的 组 
合 ， 来 确定 哪些 链接 可 用 ， 并 且 重 新 定义 一 个 树 集合 。 

多 播 路 由 是 一 个 多 播 分 发 树 的 决策 过 程 ， 更 具体 地 说 ， 是 一 个 多 播 转发 表 的 建立 过 
程 。 就 像 单 播 路 由 ， 一 个 组 播 路 由 协议 是 不 够 的 。 它 还 必须 在 网 络 发 展 的 时 候 控 制 合理 的 
规模 ， 而 且 必 须 适 应 不 同 路 由 域 的 自治 。 

1. DVMRP 

我 们 在 3.3.2 节 讨 论 过 的 用 于 单 播 的 距离 向 量 路 由 可 以 扩展 为 支持 多 播 。 相 应 的 协议 
叫 作 距离 向 量 多 播 路 由 协议 (DVMRP)。DVMRP 是 第 一 个 有 望 广泛 使 用 的 多 播 路 由 
协议 。 | 

AIZ— >, GSM BRE, SEB ARE a— 5K (Destination, Cost, NextHop? 
(目的 地 ， 开 销 ， 下 一 跳 )) 的 表 ， 并 与 跟 它 直 连 的 相 邻 节点 交换 成 对 的 《Destination， 
Cost)(《 目 的 地 ， 开 销 ;) 表 。 扩 展 这 个 算法 以 支持 多 播 分 两 个 阶段 处 理 。 首 先 ， 我 们 需要 
设计 一 种 广播 机 制 ， 人 允许 把 分 组 转发 到 互联 网 的 所 有 网 络 上 。 其 次 ， 我 们 需要 完善 这 一 机 
制 ， 删 除 那些 没有 主机 属于 多 播 组 的 网 络 。 因 此 ，DVMRP 可 称 为 洪 泛 剪 枝 〈flood-and- 
prune) 协议 的 多 播 路 由 协议 。 | | 

给 出 一 个 单 播 路 由 表 ， 每 台 路 由 器 都 知道 到 达 给 定 Destination 的 当前 最 短路 径 要 经 
过 的 NextHop。 因 此 ， 无 论 何 时 一 台 路 由 器 接收 到 源 S 的 一 个 多 播 分 组 ， 当 且 仅 当 分 组 通 
过 在 到 S 的 最 短路 径 上 的 链 路 到 达 〈 即 分 组 来 自 于 路 由 表 中 与 S 相关 的 NextHop) 时 ， 路 
由 器 才 将 分 组 在 所 有 输出 链 路 上 转发 〈 除 了 分 组 到 来 的 这 条 链 路 ) 。 此 策略 有 效 地 将 分 组 
由 S 向 外 扩散 ， 但 是 并 不 循环 回 到 S。 

此 方法 有 两 个 主要 缺点 。 首 先 ， 虽 然 的 确 是 以 扩散 方式 发 往 网 络 ， 但 无 法 避 开 那些 没 
有 多 播 组 成 员 的 LAN。 我 们 将 在 下 面 解决 这 个 问题 。 第 二 个 缺点 是 连 到 一 个 LAN 上 的 每 
台 路 由 器 都 会 将 一 个 给 定 的 分 组 在 这 个 LAN 上 转发 。 这 是 因为 采用 向 除了 分 组 的 来 路 以 
外 的 所 有 链 路 进行 扩散 的 转发 策略 ， 而 没有 考虑 这 些 链 路 是 否 属 于 以 源 为 根 的 最 短路 
径 树 。 

第 二 个 缺点 的 解决 办 法 是 删除 那些 由 连接 在 给 定 LAN 上 的 多 台 路 由 器 产生 的 重复 广 
播 分 组 。 方 法 之 一 是 为 与 源 相 关 的 每 条 链 路 指定 一 台 路 由 器 作为 父 (parent) RH, R 
有 父 路 由 器 可 以 在 LAN 中 转发 从 源 而 来 的 多 播 分 组 。 选 择 到 源 S 路 径 最 短 的 路 由 器 作为 
父 路 由 项 ， 知 两 台 路 由 器 到 源 等 距 ， 则 选择 有 较 小 地 址 的 路 由 器 。 一 个 给 定 的 路 由 器 能 
iR DS SAAB ACHR ES A BR CEE LAN 中 的 父 路 由 器 (再 次 同 每 个 
可 能 的 源 相 关 ) 。 

注意 ， 这 就 要 求 每 台 路 由 器 对 它 的 每 个 源 来 说 ， 都 要 为 每 条 相关 的 链 路 保留 一 位 ， 指 
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出 它 是 否 是 那个 源 / 链 路 对 的 父 路 由 器 。 记 住 在 互联 网 的 背景 之 下 ， 源 是 一 个 网 络 而 不 是 
一 台 主 机 ， 因 为 一 台 互 联网 路 由 器 只 对 网 络 间 转 发 分 组 感 兴趣 。 由 此 产生 的 机 制 有 时 叫 作 
逆向 路 径 广 播 (Reverse-Path Broadcast, RPB) 或 者 逆向 路 径 转 发 (Reverse Path For- 
warding，RPF) 。 路 径 是 反 向 的 ， 因 为 我 们 在 考虑 什么 时 候 发 出 转发 指令 的 时 候 就 已 经 认 
识 到 了 到 源 的 最 短路 径 ， 就 像 在 单 播 路 由 中 我 们 用 最 短路 径 来 决定 目的 地 一 样 。 

RPB 机 制 只 实现 了 最 短路 径 广 播 。 现 在 ， 我 们 想 要 剪 枝 接 收 目的 地 址 为 组 G 的 各 个 
分 组 的 网 络 ， 而 把 那些 不 含有 组 G 成 员 主 机 的 网 络 排除 在 外 。 这 个 过 程 可 以 分 两 步 实现 。 
Hw. 我们 需要 识别 没有 组 成 员 的 叶子 (leaf) 网 络 。 确 定 一 个 网 络 是 否 是 叶子 网 络 十 分 
容易 ， 如 果 RPB 中 描述 的 父 路 由 器 在 网 络 中 是 唯一 的 路 由 器 ， 那 么 此 网 络 就 是 叶子 网 络 。 
确定 组 的 成 员 是 否 在 网 络 中 ， 要 看 组 G 的 成 员 主 机 是 否定 期 经 过 这 个 网 络 发 出 通知 ， 就 像 
我 们 在 链 路 状态 多 播 中 所 描述 的 那样 。 然 后 ， 路 由 器 用 此 信息 来 决定 是 否 将 地 址 为 G 的 多 
播 分 组 在 这 个 LAN 上 转发 。 | 

第 二 步 是 将 “这 里 没有 组 G 成 员 ” 的 信息 沿 最 短路 径 树 上 传 。 要 实现 这 样 的 功能 ， 路 
Hy ge ae EE ASB OS AEA (Destination, Cost) 对 中 增加 一 些 内 容 ， 说 明 本 叶子 网 络 
希望 接收 哪些 组 的 多 播 分 组 。 接 着 ， 这 个 信息 从 一 台 路 由 器 传播 到 另 一 台 路 由 器 ， 这 样 ， 
对 于 一 人 台 给 定 的 路 由 需 来 说 ， 它 知道 在 每 条 链 路 上 应 该 转发 哪些 组 的 多 播 分 组 。 

注意 在 路 由 更 新 中 包含 这 些 信 息 的 代价 相当 高 。 因 此 ， 在 实际 情况 中 ， 这 些 信息 只 在 
某 个 源 开 始 往 那个 组 发 送 分 组 时 才 被 交换 。 换 向 话 说 ,该 策略 将 使 用 RPB， 即 在 基本 距离 
问 量 算 法 中 增加 了 少许 开销 ， 直 到 某 个 多 播 地 址 被 激活 。 这 时 ， 不 希望 接收 目的 地 址 为 那 
个 组 的 分 组 的 路 由 需 进 行 声明 ， 然 后 将 信息 传 向 其 他 路 由 器 。 

2. PIM-SM 

tril HX 2H (Protocol Independent Multicast, PIM) 是 为 解决 当前 多 播 协议 的 可 
扩展 性 问题 而 开发 的 。 特 别 是 人 们 认识 到 在 一 小 部 分 路 由 器 希望 接收 某 个 特定 组 的 通信 量 
的 环境 下 ， 当 前 协议 的 可 扩展 性 并 不 是 很 好 。 例 如 ， 如 果 大 多 数 路 由 器 从 一 开始 就 不 希望 
接收 某 通信 量 ， 那 么 将 该 通信 量 广播 到 所 有 路 由 器 ， 直 到 它们 被 明确 要 求 从 分 发 中 删除 ， 
就 并 不 是 一 个 好 的 设计 选择 。 这 种 情况 很 常见 ， 因 此 PIM 将 问题 分 为 稳 跤 模式 (sparse 
mode) 和 稠密 模式 (dense mode)， 其 中 稀 朴 和 笛 密 是 指 路 由 器 所 期 待 的 多 播 的 比例 。 
PIM 稠密 模式 (PIM-DM) 采用 了 洪 泛 剪 枝 算法 ， 就 像 DVMRP 一 样 ， 并 且 还 要 忍受 同样 
的 扩展 问题 。PIM ARA (PIM-SM) 已 经 成 为 了 域 多 播 路 由 协议 ， 这 里 将 重点 讨论 。 
顺便 说 一 下 ， 和 DVMRP 等 早期 协议 不 同 , PIM“ 协 议 无 关 ” 指 的 是 PIM 不 依赖 于 任何 特 
定 的 单 播 路 由 。 就 像 我 们 下 面 可 看 到 的 ， 它 可 以 用 于 任何 单 播 路 由 。 

在 PIM-SM 中 ， 路 由 器 使 用 称 为 Join (加 入 ) 的 PIM 协议 消息 加 入 多 播 分 布 树 。 注 
意 这 与 DVMRP 的 先 创建 广播 树 再 剪 枝 无 关 路 由 的 方式 不 同 。 由 此 引起 的 问题 是 这 些 Join 
消息 发 向 何 处 ， 毕 竟 任 何 路 由 器 (任何 数量 的 路 由 器 〉 都 可 以 发 送 消息 到 多 播 组 。 为 了 解 
决 这 一 问题 ，PIM 为 每 个 组 指定 一 个 称 为 汇集 点 (rendezvous point, RP) 的 路 由 器 。 通 
常 ， 一 个 域 中 的 很 多 路 由 器 都 被 配置 为 候选 RP, PIM-SM 定义 了 一 系列 过 程 ， 通过 这 些 
过 程 ， 域 中 所 有 路 由 器 能 够 一 致 同意 某 一 台 路 由 器 作为 一 个 特定 组 的 RP。 这 些 过 程 很 复 
杂 ， 因 为 它们 必须 处 理 各 种 各 样 的 情况 ， 如 一 台 候 选 RP 出 现 故 障 以 及 一 个 域 由 于 很 多 链 
路 或 节点 的 故障 而 划分 为 两 个 独立 的 网 络 等 。 后 面 的 讨论 中 假设 域 中 所 有 路 由 天 都 知道 某 
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个 给 定 组 的 RP 的 单 播 地 址 。 \ | | | 

多 播 转 发 树 是 路 由 器 向 RP 发 送 Join 消息 的 结果 。PIM-SM 允许 构造 两 种 类 型 的 树 
共享 (shared) 树 ， 所 有 发 送 方 都 可 以 使 用 ; 和 特定 源 (source-specified) 树 ， 只 人 允许 一 
个 特定 的 发 送 主机 使 用 。 操 作 的 标准 模式 首先 创建 共享 树 ， 然 后 ， 如 果 有 足够 的 通信 和 量 保 
证 还 可 建造 一 个 或 多 个 特定 源 树 。 因 为 建树 时 沿 树 设置 路 由 器 的 状态 ， 所 以 默认 一 个 组 只 
有 一 棵 树 而 不 是 一 个 组 中 每 个 发 送 方 有 一 棵 树 是 很 重要 的 。 

当 一 台 路 由 器 向 组 G 的 RP 发 送 一 条 Join 消息 时 ， 它 使 用 标准 IP 单 播 方式 传送 。 如 
图 4-14a 所 示 ， 路 由 器 R4 发 送 一 条 Join 到 某 个 组 的 汇集 点 。 初 始 Join 消息 是 “ 通 配 的 ”， 
即 它 适 用 于 所 有 发 送 方 。 显 然 ， 一 条 Join 消息 必须 经 一 台 路 由 器 序列 到 达 RP (如 R2)。 
沿途 的 每 台 路 由 器 都 看 到 了 Join， 并 在 转发 表 中 创建 一 条 共享 树 的 记录 ， 称 为 C, G) 
记录 〈“* ”表示 “所 有 发 送 方 ">) 。 为 了 创建 转发 表 记 录 ， 它 查看 Join 到 达 的 接口 ， 并 把 
这 个 接口 标记 为 用 于 转发 这 个 组 的 数据 分 组 的 接口 。 然 后 它 决定 使 用 哪个 接口 将 Join 转发 
到 RP。 这 个 接口 将 成 为 发 往 本 组 的 输入 分 组 的 唯一 可 接收 的 接口 。 然 后 它 向 RP 转发 
Join。 最 后 ， 消 息 到 达 RP， 完 成 树 分 支 的 建立 。 这 样 建立 的 共享 树 如 图 4-14a 中 从 RP 到 
R4 的 粗 实 线 所 示 。 





b) R5 加 入 共享 树 


RP 





c) RP 通过 向 R1 发 送 Join 以 在 R1 上 建立 特定 源 树 d) R4 和 R5 通 过 向 R1 发 送 Join 以 在 RIL 上 建立 特定 源 树 


RP 二 汇集 点 
ae 共享 树 
---- 源 Ri 的 特定 源 树 


图 4-14 PIM 操作 


当 有 更 多 的 路 由 器 向 RP 发 出 Join 时 ， 将 导致 新 的 分 支 添加 到 树 上 ， 如 图 4- 14b 所 
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示 。 注 意 在 这 种 情况 下 ，Join 只 需要 传送 到 R2, R2 在 为 这 个 组 创建 的 转发 表 记 录 中 简单 
地 增加 一 个 新 的 输出 接口 ， 即 可 将 新 分 支 添 加 到 树 上 。 了 R2 不 需要 转发 Join 到 RP。 还 需 注 
意 此 过 程 的 最 终结 果 是 创建 了 一 棵 以 RP 为 根 的 树 。 53 ae 

现在 ,假设 一 台 主 机 希望 发 送 一 个 消息 到 这 个 组 。 为 此 ， 它 构造 一 个 目标 为 适当 的 多 
播 组 地 址 的 分 组 ， 并 将 其 发 往 一 个 称 为 指派 路 由 器 (Designated Router, DR) 的 局 域 网 路 
Har. Bix DR 是 图 4-14 中 的 R1。 这 时 Rl 和 RP 之 间 没 有 这 一 多 播 组 的 状态 ， 因 此 ，R1 
(FARE (tunnel) 将 多 播 分 组 传送 到 RP， 而 不 是 简单 地 转发 它 。 即 R1 将 多 播 分 组 封装 
在 一 个 PIM Register (注册 〉 消息 中 ， 发 向 RP 的 单 播 IP 地 址 。 就 像 3. 2. 9 节 描 述 的 隧道 
器 点 一 样 ，RP 接收 指向 它 的 分 组 ， 并 通过 注册 信息 查看 它 的 有 效 载 荷 ， 找 到 其 中 地 址 为 
该 组 的 多 播 地 址 的 下 分 组 。 当 然 ，RP 知道 如 何 处 理 这 样 一 个 分 组 ， 它 会 将 此 分 组 发 往 以 
RP ARMWESW. EA 414 的 例子 中 ， 这 意味 着 RP 将 分 组 发 往 R2，R2 能 将 分 组 转发 
到 R4 和 R5。 从 Rl 到 R4 和 R5 的 一 个 分 组 的 完整 传送 过 程 如 图 4-15 所 示 。 我 们 可 以 看 
Zi), M R1 到 RP 经 隧道 传送 的 分 组 带 有 包含 RP 单 播 地 址 的 附加 IP 首部 ， 然 后 ， 目 的 地 
址 为 G 的 多 播 分 组 沿 共享 树 到 达 R4 和 RS. | 





[Reje | 


R3 





图 4-15 分 组 沿 共享 树 的 传送 过 程 。R1 将 分 组 经 隧道 传 到 RP, 
| RP 再 沿 共享 树 将 分 组 转发 到 R4 和 RS 


现在 ， 我 们 可 能 想 宣布 成 功 ， 因 为 所 有 主机 都 可 按 这 种 方式 向 接收 方 进行 发 送 。 然 
而 ， 在 分 组 发 往 RP 时 的 封装 和 解 封 装 过 程 中 ， 存 在 一 些 带 宽 无 效 和 处 理 开销 ， 因 此 ，RP 
可 以 选择 将 有 关 组 的 信息 告 之 相关 路 由 器 以 避免 使 用 隧道 。 它 将 向 发 送 主机 发 送 一 个 Join 
消息 ( 见 图 4-14c) 。 当 此 Join 向 主机 传送 时 ， 将 使 沿途 的 路 由 器 (R3) 得 知 有 关 组 的 信 
息 ， 因 此 DR 就 能 将 分 组 作为 原始 的 (native) ( 即 非 隧道 的 ) 多 播 分 组 向 组 发 送 。 

本 阶段 需要 注意 的 一 个 重要 细节 是 由 RP 发 给 发 送 主 机 的 Join 消息 仅 限于 该 发 送 主 机 
接收 ， 而 之 前 由 R4 和 RS 发 送 的 Jon 消息 则 适用 于 所 有 发 送 方 。 这 样 ， 新 Join 的 结果 是 
创建 确定 的 源 与 RP 之 间 的 路 由 器 的 特定 发 送 方 (sender-specific) 状态 。 这 种 状态 称 为 
(S, O 状态 ， 因 为 它 用 于 一 个 发 送 方 到 一 个 组 的 情况 ; 与 之 相对 照 ， 接 收 方 与 RP 之 间 
的 (x ，G) 状态 用 于 所 有 发 送 方 。 因 此 ， 在 图 4-14c 中 ， 我 们 看 到 从 RI 到 RP 的 特定 源 


路 由 (以 虚线 表示 )〉 和 对 所 有 发 送 方 均 有 效 的 从 RP 到 接收 方 的 树 (以 粗 线 表 示 )。 

下 一 步 可 能 的 优化 是 以 特定 源 树 代 兰 整个 共享 树 。 因 为 从 发 送 方 经 RP 到 接收 方 的 路 
径 也 许 比 可 能 的 最 短路 径 长 得 多 ， 也 可 能 因为 从 某 个 发 送 方 观察 到 的 高 数据 率 而 触发 这 种 
优化 。 在 这 种 情况 下 ， 在 树 的 下 游 的 路 由 器 ， 如 例 中 的 R4， 向 源 发 送 特定 源 的 Join 消息 。 
当 此 消息 按 最 短路 径 传 向 源 时 ， 沿 途 路 由 器 创建 树 的 “S，G) 状态 ， 结 果 是 得 到 以 源 为 
根 而 不 是 以 RP 为 根 的 树 。 假 设 R4 和 R5 都 换 成 特定 源 树 ， 我 们 最 终 将 得 到 如 图 4-14d 所 
示 的 树 。 注 意 这 棵 树 不 再 包括 RP。 我 们 从 图 中 删 掉 了 共享 树 以 便 人 简化 该 图 ， 但 是 实际 上 ， 
所 有 连 有 某 组 接收 方 的 路 由 器 必须 留 在 共享 树 中 ， 以 防止 新 的 发 送 方 出 现 。 

现在 我 们 明 白 了 为 什么 PIM 是 协议 无 关 的 ， 因 为 它 建 造 和 维护 树 的 所 有 机 制 都 得 益 
于 单 播 路 由 而 不 依赖 于 域 中 使 用 的 任何 特殊 的 单 播 路 由 协议 。 树 的 构成 完全 由 Join 消息 所 
走 的 路 径 决 定 ， 而 这 个 路 径 由 单 播 路 由 的 最 短路 径 决定 。 因 此 ， 准 确 地 说 ， 与 本 节 描 述 的 
从 链 路 状态 或 距离 向 量 路 由 中 导出 的 其 他 多 播 路 由 协议 相 比 较 ，PIM 是 “与 单 播 路 由 协议 
无 关 的 ”。 注 意 ，PIM 与 IP 协议 密切 相关 ， 即 从 网 络 层 协议 看 ， 它 并 不 是 协议 无 关 的 。 

PIM-SM 的 设计 再 一 次 显示 出 建造 可 扩展 性 网 络 的 挑战 ， 以 及 可 扩展 性 有 时 是 如 何 与 
某 种 优化 性 相对 立 的 。 共 享 树 当 然 比 特定 源 树 具有 更 大 的 可 扩展 性 ， 因 为 它 将 路 由 器 的 全 
部 状态 化 简 为 组 数 的 规模 而 不 是 成 倍 于 组 数 的 发 送 方 数 的 规模 。 然 而 ， 特 定 源 树 很 可 能 是 
达到 更 高 效 的 路 由 所 必需 的 。 

3. 域 间 多 播 (MSDP) 

在 域 间 多 播 时 ，PIM-SM 有 很 多 大 的 缺陷 。 特 别 是 一 个 组 中 单个 RP 的 存在 违反 了 域 
本 身 是 匿名 的 原则 。 对 于 一 个 给 定 的 多 播 组 ， 所 有 参与 的 域 都 依赖 于 RP 所 在 的 域 。 更 为 
其 者 ， 如 果 一 个 参与 的 多 播 组 中 发 送 方 和 接收 方 共 享 一 个 单独 的 域 ， 那 么 无 论 域 是 否 有 多 
播 组 的 RP， 多 播 流量 都 会 从 发 送 方 到 接收 方 。 因 此 ，PIM-SM 协议 不 是 一 个 域 间 协议 ， 
而 是 一 个 域内 协议 。 

为 了 使 PIM-SM 可 以 用 于 域 间 多 播 ， 人 们 设计 了 多 播 源 发 现 协议 (Multicast Source 
Discovery Protocol，MSDP)。MSDP 用 于 连接 不 同 的 域 ， 其 中 的 每 个 域 都 运行 PIM-SM 
并 拥有 自己 的 RP。MSDP 可 将 不 同 域 的 RP 连接 起 来 。 每 个 RP 在 其 他 域 中 都 有 一 个 或 多 
个 MSDP 对 等 RP。 每 对 MSDP 对 等 通过 TCP 连接 ( 见 5. 2 节 ) 穿越 运行 MSDP 协议 的 
区 域 。 同 时 ， 给 定 的 多 播 组 中 所 有 MSDP 对 等 形成 一 个 用 于 广播 网 络 的 松散 网 格 。MSDP 
消息 通过 该 对 等 RP 网 格 利 用 反 路 径 广播 算法 进行 广播 。 该 算法 我 们 在 介绍 DVMRP 内 容 
时 讨论 过 。 

MSDP 通过 RP 网 格 广播 了 什么 信息 呢 ? 肯定 不 是 组 成 员 信息 。 当 一 台 主 机 加 入 一 个 
组 时 ， 大 部 分 的 信息 都 流向 自己 域内 的 RP。MSDP 广播 的 是 源 一 一 多 播发 送 方 一 一 信息 。 
每 个 RP 都 知道 自己 域 中 的 源 ， 因 为 每 当 一 个 新 的 源 加 入 都 会 接收 到 一 个 Register (注册 ) 
消息 。 每 个 RP 定期 地 使 用 MSDP 来 广播 Source Active 〈 源 活动 ) 消 县 给 对 等 方 ， 给 出 源 
HY IP 地 址 、 多 播 组 地 址 和 原始 RP 的 IP 地 址 。 

如 图 4-16a 所 示 ， 如 果 一 个 MSDP 对 等 RP 接收 到 多 播 组 有 活动 的 接收 方 的 广播 那 
么 为 了 它 目 己 的 利益 ， 它 将 发 送 一 个 特定 源 的 Join 消息 给 源 主机 。 如 图 4-16b PFR, Join 
信息 为 这 个 PR 建立 一 个 特定 源 树 。 结 果 是 每 个 MSDP 网 络 成 员 并 拥有 特定 多 播 组 的 活动 
接收 方 的 RP， 都 加 入 到 新 源 的 特定 源 树 中 。 当 一 个 RP 从 源 中 接收 多 播 时 ，RP 就 利用 其 
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a) 源 SR 向 域 RP ( 即 RP1 ) 发 送 Register， 然 后 RP1 向 SR 发 送 特定 源 Join， 并 
回 在 域 B 的 MSDP 对 等 方 ( 即 RP2 ) 发 送 MSDP Source Active, 
然后 RP2 回 SR 发 送 特 乍 源 Join 
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PECE 
-一 ~~- 源 SR 的 特定 源 树 
b) 至 此 ，RP1 和 RP2 都 加 入 了 源 SR 的 特定 源 树 
图 4-16 MSDP 操作 


4. 特定 源 多 播 (PIM-SSM) | 

就 像 早期 的 多 播 协议 一 样 ， 最 初 的 PIM 服务 模型 是 一 个 多 对 多 的 模型 。 接 收 方 加 入 
一 个 组 ， 而 且 任 何 主机 都 可 以 向 这 个 组 发 送 消息 。 然 而 ， 在 20 世纪 90 年 代 末 ， 人 们 重新 
认识 到 PIM 中 可 以 加 入 一 对 多 模型 。 毕 竞 ， 很 多 多 播 应 用 只 有 一 个 合法 发 送 方 ， 就 像 一 
个 正在 因特网 上 发 送 的 会 议 的 发 言 者 一 样 。 我 们 已 经 看 到 PIM-SM 在 使 用 原始 共享 树 后 ， 
可 以 创建 出 优化 的 特定 源 最 短路 径 树 。 在 原始 的 PIM 设计 中 ， 这 种 优化 对 于 主机 是 不 可 
见 的 一 一 只 有 路 由 器 加 入 特定 源 树 中 。 然 而 ,一 旦 人 们 认识 到 一 对 多 服务 模型 的 需求 ， 
PIM-SM 的 特定 源 路 由 能 力 就 被 确定 为 主机 可 用 。 事 实 上 ， 这 需要 改变 IGMP 和 类 似 于 
IPv6 的 MLD (多 播 侦 听 发 现 )， 而 不 是 改变 PIM 本 身 。 这 种 新 近 的 能 力 称 为 PIM-SSM 
CPIM F ERZE). ' 

PIM-SSM 引进 了 一 个 新 的 概念 一 一 信道 (channel) 。 信 道 是 一 个 源 地 址 S 和 组 地 址 G 
的 合成 。 组 地 址 G 就 像 一 个 普通 的 IP 多 播 组 ， 而 且 IPv4 和 IPv6 已 经 分 配 了 SSM 的 多 播 
地 址 空间 的 子 范围 。 为 使 用 PIM-SSM， 主 机 要 指出 在 发 送 给 本 地 路 由 髓 的 IGMP 成 员 报 
告 消息 中 的 组 和 源 。 这 人 台 路 由 器 随后 发 送 一 个 PIM-SM 特定 源 Join 消息 给 源 ， 因 此 在 特 
定 源 树 上 给 自己 增加 一 个 分 支 ， 就 像 之 前 描述 的 “普通 ”PIM-SM 一 样 ， 但 绕 过 了 整个 共 
享 树 阶段 。 既 然 树 中 结果 是 针对 特定 源 的 ， 那 么 只 有 指定 的 源 在 树 中 可 以 发 送 分 组 。 

PIM-SSM 的 引入 带 来 了 一 些 明显 的 好 处 ， 特 别 是 因为 对 一 对 多 播 有 着 更 高 的 要 求 ， 
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多 播 更 直接 地 传 向 接收 方 。 

信道 地 址 更 有 效 地 由 多 播 组 地 址 加 上 源 地 址 组 成 。 因 此 ， 给 定 一 个 特定 多 播 组 地 
址 范围 有 利于 SSM 的 使 用 ， 多 个 域 可 以 独立 而 没有 冲突 地 使 用 同一 个 多 播 组 地 
址 ， 就 像 它们 在 自己 域 中 的 源 上 使 用 一 样 。 

既然 只 有 特定 源 可 以 向 SSM 组 发 送 消息 ， 所 以 几乎 不 存在 被 恶意 主机 使 用 伪造 的 
多 播 流 量 来 淹没 主机 和 接收 方 从 而 锌 攻击 的 风险 。 

PIM-SSM 可 以 像 用 于 域内 一 样 用 于 域 间 ， 而 不 会 依靠 任何 其 他 类 似 于 MSDP 的 
协议 。 

所 以 ， SSM 对 于 多 播 服务 模型 来 说 是 一 个 有 用 的 补充 ， 

. 双向 树 (BIDIR-PIM) 

我 们 利用 另 一 种 针对 PIM 进行 增强 的 称 为 双向 PIM (Bidirectional PIM) 的 方法 来 完 
善 对 于 多 播 的 讨论 。BIDIR-PIM 是 PIM-SM 的 变种 ， 可 很 好 地 适用 于 域内 的 多 对 多 多 播 ， 
尤其 是 当 组 内 的 发 送 方 同 时 也 是 接收 方 时 〈 比 如 在 多 方 视频 会 议 的 情境 下 )。 在 PIM-SM 
中 ， 潜 在 的 接收 方 通过 发 送 IGMP 成 员 报告 消息 《一 定 不 是 特定 源 消 息 ) MA, KHE 
RP 的 树 从 而 转发 多 播 分 组 给 接收 者 。 然而 ， 和 PIM-SM 不 同 ， 共 享 树 有 通 向 源 的 分 支 。 

这 对 于 PIM-SM 的 单 向 树 没有 任何 影响 ， 但 BIDIR-PIM 的 树 是 双向 的 一 一 从 下 行 流 分 支 
中 收 到 多 播 分 组 的 路 由 器 可 以 将 分 组 向 下 或 向 上 沿 树 进行 转发 。 传 输 一 个 分 组 到 特定 接 
收 方 的 路 由 在 向 下 分 支 到 达 接 收 方 之 前 ， 必 须 经 过 同样 远 的 向 上 分 支 。 作 为 例子 ， 请 看 
图 4-17b 中 的 R1 到 R2 之 间 的 多 播 路 由 。R4 转发 一 个 下 行 多 播 分 组 到 R2 的 同时 ， 转 发 
一 个 相同 分 组 的 找 贝 到 上 行 的 R5。 

BIDIR-PIM 令 人 吃惊 的 表现 之 一 是 它 不 需要 RP。 它 所 需要 的 仅仅 是 一 个 可 用 路 由 地 
址 ， 我 们 称 之 为 RP 地 址 ， em a 这 意味 着 什么 fee 
收 方 的 Join 被 转发 到 RP 地 址 直到 到 达 其 台 路 由 器 ， 这 人 台 路 由 器 具有 链接 的 接口 ， 而 这 
链接 包含 Join 消息 终止 位 置 的 RP 地 址 。 图 4-17a 人 个 从 R2 到 R5 的 Join 消息 ， 
aa 
有 RP 终止 地 址 所 在 链 路 接口 的 路 由 器 。 之 后 是 上 行 转发 的 最 后 一 步 ， 路 由 器 在 此 链 路 上 
转发 多 播 分 组 ， 保 证 此 链接 上 的 所 有 其 他 路 由 器 可 以 接收 到 该 分 组 。 图 4- 17b 显示 了 从 
R1 出 发 的 多 播 流量 。 

BIDIR-PIM 至 今 无 法 用 于 域 间 。 为 一 方面 ， 与 域 中 用 于 多 对 多 多 播 的 PIM-SM 相 比 ， 
BIDIR-PIM 还 是 有 很 多 优势 的 。 

。 没 有 源 注 册 过 程 ， 因 为 路 由 器 已 经 知道 如 何 向 RP 地 址 路 由 一 一 个 多 播 分 组 。 

。 该 路 由 比 使 用 PIM-SM 共享 树 的 路 由 更 直接 地 到 达 ， 因 为 该 路 由 只 按 需要 沿 树 上 
行 而 不 是 遍历 整个 RP 路 径 。 | | : 
双向 树 使 用 比 PIM-SM 特定 源 树 更 少 的 状态 ， 因 为 这 里 没有 任何 特定 源 状态 Gh 

句 话 说， 路 由 将 长 于 特定 源 树 ) 。 

。 RP 不 会 成 为 瓶 开 ,而且 确实 不 需要 真正 的 RP。 

结论 产生 于 这 样 一 个 事实 ， 多 播 中 很 多 不 同 的 方法 是 与 PIM 有 关 的， 而 在 多 播 空 间 
”里 寻找 优化 方案 是 个 非常 困难 的 问题 。 在 你 为 这 个 任务 选择 最 好 的 多 播 模式 之 前 ， 需 要 决 
定 用 哪些 标准 进行 优化 〈 使 用 带宽 、 路 由 器 状态 、 路 径 长 度 等 ) 以 及 支持 哪 种 应 用 〈 一 对 
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多 、 多 对 多 等 )， 


RP 地 址 连接 





a) R2 和 R3 向 RP 地 址 发 送 Join， 并 在 到 达 一 个 RP 地 址 
链 路 上 的 路 由 器 时 终止 


RP 地 址 连接 





RI R2. R3 


b) R1 发 出 的 多 播 分 组 转发 上 行 流 到 RP 地 址 链 路 ， 
当 与 某 个 成 员 分 支 相交 时 转发 下 行 流 


图 4-17 BIDIR-PIM 操作 





多 播 协议 的 命 | 

自从 1991 a Steve Deering 的 博士 论文 “Multicast Routing in a DSen Neco? 
(数据 分 组 网 络 中 的 多 播 路 由 ) 发 表 之 后 ， 许 多 IP 多 播 协 议 被 抛弃 。 在 很 多 情况 下 ， 这 些 
协议 都 仍然 有 很 多 可 借鉴 的 地 方 。 最 成 功 的 早期 多 播 协 议 是 DVMRP， 我 们 已 经 
始 的 时 候 讨 论 过 了 。 多 播 开 放 最 短路 径 优 先 (MOSPF) 协议 是 基于 OSPF 单 播 路 由 协议 
Ho PIM 稠密 模式 (PIM-DM) 与 DVMRP 类 似 ， 同 样 使 用 了 洪 泛 剪 校 方法， 同时 在 独立 
” 单 播 路 由 协议 中 的 应 用 又 与 PIM-SM 类 似 。 这 些 协 议 更 适合 稠密 域 〈 比 如 ， 一 个 有 高 转发 
率 的 路 由 豆 会 对 多 播 有 兴趣 )。 在 扩展 性 的 挑战 充分 显现 之 前 ， 这 些 早期 多 播 协 议 都 显示 
出 了 一 定 的 相关 性 。 即 使 它们 仍然 在 一 个 多 播 组 域内 有 意义 并 期 望 得 到 更 多 的 关注 ， 但 它 
们 现在 已 经 很 少 使 用 了 ， 一 部 分 因素 是 路 由 哈 通 常 必须 支持 PIM-SM。 | | 

核 基 树 (Core-based tree, CBT) 是 另外 一 种 多 播 方法 ， 这 种 方法 是 与 PIM 同时 期 出 
OL. IETF 一 开始 无 法 在 这 两 种 方法 中 进行 选择 ， 而 且 PIM 和 CBT 都 是 先进 的 “实验 
性 ”协议 。 然 而 ，PIM 在 行业 中 被 人 们 更 广泛 地 采用 了 ， 而 且 CBT 的 主要 技术 一 一 共享 
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树 和 双向 树 分 别 被 完全 合并 到 PIM-SM 和 BIDIR-PIM 中 。 

边界 网 关 多 播 协 议 (BGMP) 使 用 了 双向 共享 树 的 概念 。 然 而 ， 在 BGMP 中 ， 树 的 节 
点 是 域 ， 域 中 的 一 个 是 根 。 换 名 话 讲 ，BGMP 像 MSDP 一 样 连 在 一 起 文 持 域 间 多 播 。 与 
MSDP 不 同 的 是 ， 域 可 以 自由 地 选择 域内 协议 。BGMP 是 IETF 提出 的 协议 ， 几 年 前 人 们 
还 希望 BGMP 取代 MSDP 作为 主要 的 域 间 路 由 协议 。 然 而 BGMP 非常 复杂 ， 它 需要 一 个 
给 域 指派 多 播 地 址 的 协议 ， 以 使 BGMP 知道 哪个 域 是 给 定 地 址 的 根 。 因 此 ， 在 写 出 该 协 
议 的 时 候 ， 并 没有 对 BGMP 加 以 实现 。 


4.3 多 协议 标签 交换 (MPLS) 


我 们 继续 讨论 使 IP 性 能 增强 的 体系 结构 ， 这 些 结构 运用 广泛 ， 但 在 终端 用 户 一 侧 通 
常 是 隐藏 的。 一 种 提高 方式 称 为 多 协议 标签 交换 (Multi-protocol Label Switching, 
MPLS) ， 它 将 虚 电路 的 一 些 特点 与 数据 报 的 灵活 性 和 健壮 性 结合 在 一 起 。 一 方面 ，MPLS 
与 基于 IP 数据 报 的 体系 结构 有 密切 关系 ， 即 它 依靠 IP 地 址 和 IP 路 由 协议 来 工作 。 另 一 
方面 ， 支 持 MPLS 的 路 由 器 也 通过 检查 相对 短 的 、 固 定 长 度 的 标记 来 转发 分 组 ， 这 些 标记 
有 一 个 局 部 范围 ， 就 像 在 虚 电 路 网 络 中 一 样 。 也 许 正 是 这 两 种 表面 对 立 的 技术 的 结合 使 
MPLS 在 因特网 工程 界 被 各 方 所 接受 。 

在 讨论 MPLS 如 何 工作 之 前 ， 很 自然 会 问 : “ 它 有 什么 好 处 ?” 关 于 MPLS 有 很 多 说 
法 ,但 是 现在 只 提 及 以 下 三 个 主要 方面 : 

。 使 不 具备 按 正常 方式 转发 IP 数据 报 能 力 的 设备 支持 P. 

。 按 显 式 路 由 〈 预 先 计 算 的 路 由 ) 转发 IP 数据 报 ， 而 无 需 匹 配 普通 IP 路 由 协议 选择 

的 路 由 。 | 

。 支持 特定 类 型 的 虚拟 专用 网 服务 。 

值得 注意 的 是 ， 最 初 目的 之 一 一 一 提高 性 能 反而 没有 提 到 。 近 些 年 ， 为 了 提高 性 能 ， 
人 们 对 IP 路 由 器 的 转发 算法 做 了 很 多 工作 ， 并 考虑 了 很 多 决定 性 能 的 首部 处 理 之 外 的 复 
杂 因 素 。 | 

了 解 MPLS 如 何 工作 的 最 佳 方法 是 来 看 一 些 实际 使 用 的 例子 。 在 以 下 三 节 中 ， 我 们 将 
用 例子 分 别 讲述 以 上 提 到 的 三 种 MPLS 的 应 用 。 


4.3. 1 基于 目的 地 的 转发 


最 早 介绍 为 IP 分 组 附加 标签 这 一 思想 的 文章 之 一 是 Chandranmenon 和 Varghese 写 的 
论文 ， 其 中 描述 了 一 种 称 为 链 式 索引 (threaded index) 的 思想 。 与 之 非常 类 似 的 思想 现 
在 实现 在 支持 MPLS 的 路 由 器 上 。 下 面 的 例子 说 明 这 种 思想 是 如 何 工作 的 。 

考虑 如 图 4-18 的 网 络 。 最 右 侧 的 两 台 路 由 器 (R3 和 R4) 每 一 台 都 连 着 一 个 网 络 ， 前 
缀 分 别 为 18. 1. 1/24 和 18. 3. 3/24。 其 他 两 台 路 由 器 (RIM Rd) 有 路 由 表 ， 指 出 当 路 由 
侣 要 转发 分 组 到 那 两 个 网 络 之 一 时 使 用 哪个 发 送 接口 。 | 

当 一 台 路 由 器 能 够 支持 MPLS 时 ， 它 给 路 由 表 中 的 每 个 前 缀 都 分 配 一 个 标签 ， 并 将 标 
签 和 所 表示 的 前 缀 通知 相 邻 路 由 器 。 此 通知 的 分 发 由 标签 分 发 协议 (Label Distribution 
Protocol, LDP) 携带 。 如 图 4-19 所 示 ， 路 由 器 R2 AWB 18. 1. 1 分 配 的 标签 值 是 15 ， 给 
BUR 18. 3. 3 分 配 的 标签 值 是 16 。 这 些 标 签 可 由 分 配 路 由 器 来 选择 ， 可 以 看 作 是 路 由 表 的 





18.1.1/24 
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图 4-18 示例 网 络 中 的 路 由 表 


索引 。 分 配 标 签 之 后 ，R2 将 标签 绑 定 通知 给 相 邻 的 节点 ， 在 此 例 中 ， 可 以 看 到 R2 将 标签 
15 MAUR 18. 1. 1 之 间 的 绑 定 通知 给 R1。 事 实 上 ， 这 样 的 一 个 通知 就 相当 于 R 在 说 “请 
将 那些 发 给 我 的 目标 前 缀 为 18. 1. 1 的 分 组 全 都 附着 标签 15”。R1 将 标签 存在 一 个 表 中 ， 
劳 边 是 其 前 级 ， 表 示 它 是 发 往 那 个 前 缀 的 任何 分 组 的 远程 或 输出 标签 。 

在 图 4-19c 中 ， 我 们 看 到 路 由 器 R3 将 男 一 个 前 缀 18. 1. 1 的 标签 通 二 R2 将 从 R3 
处 得 到 的 远程 标签 放 人 表 中 的 适当 位 置 。 

现在 ， 我 们 可 以 来 看 一 个 分 组 在 这 样 的 网 络 中 转发 时 的 情况 。 假 设 一 个 目的 IP 地 址 
为 18. 1. 1.5 的 分 组 从 左边 传送 到 路 由 器 R1。 在 这 种 情况 下 ，R1 叫 作 标签 边缘 路 由 器 
(Label Edge Router, LER), LER 对 到 达 的 IP 分 组 进行 完全 的 IP 查找 ， 然 后 用 它们 的 标 
签 作为 查找 的 结果 。 在 这 种 情况 下 ，R1 发 现 18.1.1.5 与 转发 表 中 的 前 缀 18.1.1 匹配 ， 
并 且 这 条 记录 中 还 包含 一 个 输出 接口 和 一 个 远程 标签 值 。 因 此 R 将 远程 标签 15 附加 到 这 
个 分 组 上 ， 然 后 发 送 。 

当 分 组 到 达 R2 时 ，R2 只 查看 分 组 中 的 标签 ， 而 不 查看 IP 地 址 。R2 中 的 转发 表 指 示 
到 达 的 携带 标签 值 15 的 分 组 应 从 接口 1 发 出 ， 并 应 携带 路 由 器 R3 通知 的 标签 值 24。 因 
E ， 并 把 它 转发 到 R3。 

上 应 用 和 标 短 交 换 完成 了 什么 工作 ? 来 看 此 例 中 R2 转发 分 组 时 的 情况 。 其 实 ， 它 
E e : IP 地 址 。R2 只 检查 输入 的 标签 即 可 。 因 此 ， 我 们 用 标签 查找 代替 正 常 的 
IP 目的 地 址 查找 。 为 了 理解 这 种 做 法 的 重要 性 ， 回 忆 一 下 ， 虽 然 IP 地 址 的 长 度 总 是 相同 
的 ， 但 是 IP 前 缀 是 变 长 的 ， 且 IP 目的 地 址 查找 算法 需要 查找 最 长 匹配 (longest match), 
即 与 将 要 转发 的 分 组 中 的 IP 地 址 高 比特 部 分 相 匹配 的 最 长 前 缀 。 相 反 ， 刚 才 描述 的 标签 
转发 机 制 是 一 种 精确 匹配 Cexact match) 算法 。 例 如 ， 通 过 使 用 标签 作为 数组 的 震 引 ， 其 
中 数组 的 每 个 单元 是 转发 表 中 的 一 行 ， 就 可 以 实现 一 个 非常 简单 的 精确 匹配 算法 。 
意 ， 当 转发 算法 从 最 长 匹配 变 为 精确 匹配 时 ， 路 由 算法 可 以 是 任何 一 种 标准 的 IP 
路 由 算法 (如 OSPF) 。 在 此 环境 中 ， 分 组 经 过 的 路 径 就 是 在 不 使 用 MPLS 时 分 组 走 的 那 
条 路 径 ， 即 IP 路 由 算法 选择 的 路 径 。 改 变 的 只 是 转发 算法 。 

MPLS 重要 的 一 个 概念 可 以 用 这 个 例子 来 解释 。 每 个 MPLS 标签 与 一 个 转发 等 价 类 
(forwarding equivalence class, FEC) 相关 联 一 一 某 人 台 路 由 器 接收 同一 转发 处 理 的 分 组 集 
合 。 在 这 个 例子 里 ， 每 个 路 由 表 中 的 前 级 部 是 一 个 FEC。 所 有 满足 前 级 18.1.1 的 分 

组 一 一 无 论 低 序列 字 市 的 IP 地 址 是 什么 一 一 都 沿 同样 长 的 路 线 转 发 。 因 此 ， 每 台 路 由 器 
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b) ANE 的 标签 存储 在 表 中 . 
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c) R3 通 知 另 一 TORZE MESIRE NER 
图 4-19 


都 能 分 配 一 个 标签 用 来 映射 到 18. 1. 1， 而 且 每 一 个 分 组 包 合 ‘AD IP go 只 要 高 位 和 前 
缀 想 匹 配 便 可 以 用 这 个 前 缀 来 转发 。 

就 像 我 们 将 在 子 序列 样 例 中 看 到 的 ，FEC 是 非常 强大 而 灵活 的 概念 。 FEC 可 以 形成 
几乎 所 有 标准 。 比 如 ， 所 有 与 特殊 用 户 相关 的 分 组 都 被 认为 在 同一 个 FEC H, 

回 到 眼前 的 例子 ， 我 们 发 现 将 转发 算法 从 普通 IP 转发 改 为 标签 交换 产生 了 一 个 重要 
的 结果 ， 以 前 不 知道 如 何 转 发 IP 分 组 的 设备 可 以 用 来 在 MPLS 网 络 里 转发 了 流量。 早期 
最 值得 称道 的 满足 此 要 求 的 是 ATM 交换 机 ， 它们 可 以 不 做 任何 便 件 变 化 就 支持 MPLS, 
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ATM 交换 机 支持 之 前 所 描述 的 标签 交换 转发 算法 。 如 果 将 IP 路 由 协议 ARP) 和 发 布 标 
AE BB FE) Tr IE Ge GES EAC RL, EAT LO ETB :成 标签 交换 路 由 器 (LSR) 一 一 该 设备 
可 以 运行 IP 控制 协议 但 使 用 标签 交换 转发 算法 最 近 ， 相同 的 思想 被 应 用 于 在 SEa 
介绍 的 光 交 换 机 中 。 
在 我 们 考虑 将 一 台 ATM 交换 机 变 成 一 @ LSR 的 好 处 之 前 ， 先 来 看 一 些 尚未 解释 清 
的 问题 。 我 们 说 将 标签 “附加 ”在 分 组 上 上 ， 但是， 到 底 附 加 在 哪儿 呢 ? 答案 要 看 分 组 是 在 
何 种 链 路 上 传送 的 。 在 分 组 上 携带 标签 有 两 种 常用 方法 ， 如 图 4-20 所 示 。 当 IP 分 组 作为 
完整 的 帧 传送 时 ， 它 们 在 大 多 数 链 路 类 型 上 ， 如 以 太 网 和 PPP， 标 签 将 作为 一 个 “来 片 ” 
插 在 第 二 层 首部 和 IP (或 其 他 第 三 层 ) 首部 之 间 ， 如 图 中 较 低 位 置 所 示 。 然 而 ， 如 果 一 台 
ATM 交换 机 用 来 完成 MPLS LSR 的 功能 ， 那 么 标签 应 该 放 在 交换 机 能 使 用 的 地 方 ， 即 需 
要 放 在 ATM 信 元 首部 ， 确 切 地 说 ， 通 常 在 我 们 寻找 虚拟 电路 标识 (VCD 和 虚拟 路 径 标 
识 (VPD 字段 的 地 方 。 | | 
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b) 帧 封装 分 组 标签 
| 4-20 


现在 通过 这 个 设计 方案 ATM 交换 机 能 完成 LSR 的 功能 ， 那 么 我 们 从 中 得 到 了 什么 
需要 注意 的 一 点 是 ， 现 在 我 们 可 以 建造 一 个 ed 标签 边缘 路 由 器 和 
完成 LSR 功能 的 ATM 交换 机 的 网 络 ， 同 时 它们 都 可 以 使 用 相同 的 路 由 协议 。 为 了 理解 使 
用 相同 协议 的 好 处 ， 来 看 两 种 情况 。 在 图 4-21a 中 ， 我 们 看 到 一 组 路 由 器 通过 ATM 网 络 
上 的 虚 电 路 互联 ， 这 种 配置 叫 履 盖 (overlay) 网 络 。 过 去 经 常 建造 这 种 类 型 的 网 络 ， 因 为 
商用 ATM 交换 机 比 路 由 器 支持 的 总 吞吐 量 高 。 现 在 ， 此 类 网 络 不 那么 普遍 了 ， 因 为 路 由 
器 的 性 能 已 经 提高 ， 甚 至 超过 了 ATM 交换 机 。 然 而 ， 这 种 网 络 仍然 存在 ， 因 为 在 主干 网 
中 已 经 安装 了 很 多 ATM 交换 机 ， 某 种 程度 上 也 是 因为 ATM 交换 机 有 能 力 支持 一 些 性 能 ， 
Eon 

在 覆盖 网 络 中 ; 每 台 路 由 器 都 可 经 虚 电 路 连接 其 他 所 有 路 由 器 ， 但 是 在 这 里 ， 为 了 表 
ER 
需要 跟 所 有 邻居 交换 路 由 协议 消息 一 一 我 们 说 R1 有 5 个 路 由 邻接 点 。 与 之 相对 照 ， 在 图 
4-21b 中 ，ATM 交换 机 被 LSR 代替 ， 不 再 有 虚 电 路 与 路 由 器 连接 。 因 此 ，R1 只 有 一 个 邻 
接点 ， 即 LSR1。 在 大 型 网 络 中 ， 在 交换 机 上 运行 MPLS 将 使 每 台 路 由 器 必须 维护 的 邻接 
点 数目 大 由 减少 ， 并 可 大 幅 减 少 路 由 器 为 了 将 拓扑 改变 通知 到 其 他 每 合 路 由 器 而 必须 做 的 
工作 量 。 

在 边缘 路 由 器 和 LSR 上 运行 相同 路 由 协议 的 第 二 个 好 处 是 可 使 边缘 路 由 器 对 网 络 折 
扑 有 全 面 的 了 解 。 这 就 意味 着 如 果 网 络 中 的 某 条 链 路 或 某 个 节点 发 生 故 障 ， 那 么 边缘 路 由 
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图 4-21 


器 就 会 有 更 好 的 机 会 选择 一 条 好 的 新 路 径 ， 而 不 像 在 边缘 路 由 器 没有 这 些 知 识 的 情况 下 ， 
ATM 交换 机 需要 变更 受 影响 VC 的 路 由 。 o 

注意 将 ATM 交换 机 用 LSR“ 蔡 换 ” 的 步骤 实际 上 是 通过 改变 运行 在 交换 机 上 的 协议 
来 实现 的 ， 但 通常 不 需要 改变 转发 硬件 。 也 就 是 说 ， 一 台 ATM 交换 机 总 是 可 以 通过 只 升 
级 软件 而 转换 为 一 台 MPLS LSR. mH, MPLS LSR 在 运行 MPLS 控制 协议 的 同时 ， 可 
以 继续 支持 标准 ATM 功能 ， 这 称 为 “混合 转换 器 模式 ”。 

最 近 ， 在 原本 不 能 转发 IP 分 组 的 设备 上 运行 IP 控制 协议 的 思想 已 经 扩展 到 了 光 交 换 
机 和 STDM 设备 上 上， 如 SONET 多 路 复 用 器 。 这 通常 称 作 通用 MPLS (generalized 
MPLS，GMPLS) 。 采 用 GMPLS 的 部 分 动机 是 为 路 由 器 提供 光 网 络 的 拓扑 知识 ， 正 如 
ATM 中 的 情况 。 更 重要 的 是 以 前 没有 控制 光 设 备 的 标准 协议 ， 因 此 ， 看 起 来 MPLS 上 自然 
可 以 承担 这 个 工作 。 





MPLS 位 于 哪 一 层 ? = | 

关于 MPLS 究竟 属于 1.3 节 给 出 的 分 蝴 协 议 体系 结构 的 哪 一 层 还 存在 很 多 争论 。 由 于 
MPLS 首部 通常 位 于 分 组 的 第 三 层 和 第 二 层 首 部 之 间 ， 所 以 它 有 时 被 称 为 2.5 层 协 议 。 有 
些 人 争辩 说 ， 由 于 IP 分 组 被 封装 在 MPLS 首部 内 ， 因 此 MPLS OREIP “ZK”, HE - 
成 为 第 二 层 协议 。 而 另 一 些 人 认为 ， 由 于 MPLS 的 控制 协议 的 很 大 一 部 分 与 IP 使 用 同样 
的 协议 (MPLS 使 用 JIP 路 由 协议 和 IP 编 址 )， 因 此 MPLS 必须 和 JIP 在 同一 层 CHS 3 
层 )。 如 1.3 节 所 述 ， 分 层 体系 结构 是 有 用 的 工具 ， 但 是 并 非 总 能 准确 地 描述 真实 世界 ， 
MPLS 就 是 一 个 很 好 的 例子 ， 反 映 出 严格 的 分 层 观点 可 能 很 难 与 现实 相 一 致 。 


4.3.2 显 式 路 由 


在 3.1.3 市 ， 我 们 介绍 了 源 路 由 的 概念 。IP 有 一 个 源 路 由 选项 ， 但 是 有 几 个 原因 使 其 
并 未 得 到 广泛 使 用 ， 包 括 它 只 能 说 明 有 限 数目 的 跳 数 ， 并 且 它 通常 在 大 多 数 路 由 器 上 的 
“快速 路 径 ” 之 外 进行 处 理 。 

MPLS 提供 了 一 种 方便 的 方法 将 类 似 于 源 路 由 的 能 力 添加 到 IP 网 络 中 ， 尽 管 这 种 能 
力 通 常 叫 作 显 式 路 由 (explicit routing) 而 不 叫 作 源 路 由 (source routing)。 做 此 区 别 的 一 
个 原因 是 它 通 常 不 是 选择 此 路 由 的 分 组 的 真正 源 ， 在 更 多 情况 下 它 是 服务 提供 商 网络 中 的 
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一 人 台 路 由 器 。 图 4-22 所 示 的 是 如 何 使 用 MPLS 显 式 路 由 的 例子 。 这 种 网 络 通常 叫 作 鱼 
ish) 形 网 络 ， 因 为 它 的 形状 像 鱼 〈 路 由 器 R1 和 R2 是 尾 ，R7 是 头 ) 。 





图 4-22 一 种 需要 显 式 路 由 的 网 络 


假设 在 图 4-22 的 网 络 中 ， 操 作者 已 经 决定 任何 从 R1 到 R7 的 通信 量 都 应 经 过 路 径 
R1-R3-R6-R7， 而 任何 从 R2 到 R7 的 通信 量 都 经 过 路 径 R2-R3-R4-R5-R7。 这 样 选择 的 一 
个 原因 是 充分 利用 从 R3 到 R? 之 间 两 条 不 同 路 径 的 可 用 容量 。 正 常 的 IP 路 由 无 法 轻易 做 
到 这 一 点 ， 因 为 R3 做 出 转发 决定 时 并 不 看 通信 量 来 自 何 处 。 

因为 MPLS 使 用 标签 交换 来 转发 分 组 ， 所 以 如 果 路 由 器 能 使 用 MPLS， 就 能 比较 容 
易 地 达到 想 要 的 路 由 。 如 果 RIM R2 在 将 分 组 发 送 到 R3 之 前 为 它们 附加 了 各 自 的 标 
签 ， 那 么 R3 就 可 以 将 来 自 Rl1 和 R2 的 分 组 转发 到 不 同 的 路 径 。 由 此 产生 的 问题 是 ， 网 
络 中 的 所 有 路 由 器 使 用 何 种 标签 达成 共识 ， 并 且 如 何 转发 有 特别 标签 的 分 组 ?显然 ， 我 
们 不 能 使 用 上 节 描 述 的 步骤 来 分 发 标签 ， 因 为 那些 步骤 建立 的 标签 会 使 分 组 按照 正常 IP 
路 由 的 路 径 走 ， 而 这 正 是 我 们 希望 避免 的 。 所 以 ， 需 要 一 种 新 的 机 制 。 完 成 此 任务 的 协 
议 叫 作 资 源 预 留 协 议 (RSVP)。 我 们 将 在 6. 5. 2 节 讨 论 有 关 这 个 协议 的 更 多 内 容 ， 这 
里 ， 只 说 明 它 能 够 沿 显 式 说 明 的 路 径 (如 R1I-R3-R6-R7) 发 送 一 个 RSVP 消息 ， 并 据 此 
建立 沿 这 条 路 径 的 所 有 标签 转发 表 项 。 这 非常 类 似 于 3. 3 节 中 描述 的 建立 一 条 虚 电 路 的 
过 程 。 | | 

显 式 路 由 的 应 用 之 一 是 通信 量 工 程 (traffic engineeting)， 它 是 指 保 证 网 络 中 有 足 
够 的 可 用 资源 满足 需求 的 任务 。 确 切 地 控制 通信 量 流 经 娜 一 条 路 径 是 通信 量 工程 的 一 
个 重要 部 分 。 显 式 路 由 也 有 助 于 使 网 络 在 面 对 故 障 时 更 容易 恢复 ， 这 一 功能 称 为 快速 
重 选 路 由 (fast reroute) 。 例 如 ， 可 以 预先 计算 一 条 从 路 由 器 A 到 路 由 器 B 的 明显 避 
开 某 条 特定 链 路 工 的 路 径 。 当 链 路 工 出 错时 ， 路 由 器 A 就 可 将 所 有 目标 是 B 的 通信 
量 经 预先 计算 的 那 条 路 径 发 送 。 将 预先 计算 的 备份 路 径 与 对 沿路 径 分 组 进行 显 式 路 由 
的 结合 ， 意 味 着 A 不 需要 等 待 路 由 协议 分 组 穿 过 网 络 或 等 待 网 络 上 的 其 他 各 种 节点 
执行 路 由 算法 。 在 特定 情况 下 ， 这 样 可 以 在 很 大 程度 上 减少 分 组 为 绕 过 出 错 点 而 重 选 
路 由 所 用 的 时 间 。 E 

有 关 显 式 路 由 需要 注意 的 最 后 一 点 是 ， 显 式 路 由 不 需要 由 网 络 操作 者 来 计算 ， 如 上 例 
所 述 ， 路 由 器 可 以 用 很 多 算法 来 自动 计算 显 式 路 由 。 其 中 最 常见 的 是 约束 最 短路 径 优 先 
(Constrained Shortest Path First, CSPF) BY, BW 3.3.3 节 描 述 的 链 路 状态 算法 ， 
但 是 要 考虑 一 些 约束 。 例如， 如 有 果 和 需要 找到 一 条 从 R1 到 R? 的 路 径 ， 能 够 承担 要 求 的 
100Mbps 负载， 那么， 我们 就 可 以 说 约束 是 每 条 链 路 必须 至 少 有 100Mbps 的 可 用 容量 。 
CSPF 解决 这 类 问题 。 有 关 CSPF 的 更 多 细节 和 显 式 路 由 的 应 用 在 本 章 末尾 的 “扩展 阅读 ” 
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我 们 在 3. 2. 9 节 先 讨论 了 虚拟 专用 网 (VPN)， 并 且 我 们 注意 到 ， 建 造 它们 的 方法 之 
一 是 使 用 隧道 。 事 实证 明 ，MPLS 可 以 看 作 是 建造 隧道 的 一 种 方法 ， 这 使 它 适合 于 建造 各 
种 类 型 的 VPN. | 

最 简单 形式 的 MPLS VPN 可 以 理解 为 第 二 层 的 VPN。 在 这 种 类 型 的 VPN 中 ， 
MPLS 作为 第 二 层 数 据 〈 如 以 太 网 的 帧 或 ATM 信 元 ) 的 隧道 穿 过 能 用 MPLS 路 由 器 的 网 
络 。 回 忆 一 下 ， 在 .3. 2. 9 节 中 ， 使 用 隧道 的 一 个 原因 是 在 网 络 中 提供 一 些 路 由 器 不 支持 的 
某 种 网 络 服务 〈 如 多 播 ) 。 这 里 使 用 同样 的 逻辑 ，IP 路 由 器 不 是 ATM 交换 机 ， 因 此 在 传 
统 的 路 由 器 网 络 中 不 能 提供 ATM 虚 电 路 服务 。 然 而 ， 如 果 有 经 隧道 互联 的 一 对 路 由 器 ， 
那么 就 可 经 隧道 发 送 ATM 信 元 ， 并 仿真 一 条 ATM 电路 。 这 种 技术 在 IETF 中 称 为 伪 线 
仿真 (pseudo wire sulation 。 图 4-23 描述 了 这 种 思想 。 : 





ATM 售 元 到 达 







道 将 信 元 送 到 尾部 
图 4-23 ”一 条 由 隧道 仿真 的 ATM 电路 


我 们 已 经 知道 IP 隧道 是 如 何 建造 的 ， 在 隧道 入 口 的 路 由 器 把 将 要 用 隧道 传送 的 数据 
封装 在 一 个 IP 首部 (隧道 首部 ) 内 ， 它 表示 在 隧道 远 端的 路 由 器 地 址 ， 然 后 像 发 送 其 他 
IP 分 组 一 样 发 送 数据 。 接 收 方 路 由 器 收 到 首部 中 带 有 它 自己 地 址 的 分 组 后 ， 将 隧道 首部 
剥离 ， 找 到 经 隧道 发 送 的 数据 ， 然 后 进行 处 理 。 它 对 数据 所 做 的 具体 处 理 依赖 于 数据 是 什 
么 。 例 如 ， 如 果 它 是 另 一 个 IP 分 组 ， 就 像 普 通 IP 分 组 那样 将 它 转发 出 去 。 然 而 ， 只 要 接 
收 方 路 由 器 知道 怎么 处 理 非 IP 分 组 的 话 ， 那 么 它 也 可 以 不 是 一 个 IP 分 组 。 我 们 即将 讨论 
如 何 处 理 非 IP 数据 的 问题 。 | 

MPLS 隧道 与 IP 隧道 没有 太 大 不 同 ， 只 是 隧道 首部 中 包含 MPLS 首部 而 不 是 IP 首 
部 。 看 图 4-19 中 的 第 一 个 例子 ， 我 们 看 到 路 由 器 R WEP REAR 18.1.1 的 分 组 附加 
一 个 标签 (15)。 这 样 的 分 组 将 通过 路 径 R1-R2-R3 传送 ， 路 径 中 的 每 台 路 由 器 只 检查 
MPLS 标签 。 因 此 ， 我 们 看 到 Rl1 沿 此 路 径 不 仅 可 以 发 送 IP 分 组 ， 只 要 是 能 够 封装 到 
MPLS 首部 的 任何 数据 都 可 以 通过 这 条 路 径 ， 因 为 相关 路 由 器 只 看 MPLS 首部 而 不 关心 其 
”他 。 在 这 一 点 上 ，MPLS 首部 和 了 IP 首部 一 样 .9 沿 隧道 (MPLS 或 其 他 ) 发 送 非 IP 通信 量 
的 唯一 的 问题 是 ， 当 非 IP 通信 量 到 达 隧 道 端 点 时 ， 我 们 该 做 什么 ? 常用 的 解决 办 法 是 在 
隧道 负载 中 携带 某 种 多 路 分 解 标 识 符 ， 告 诉 隧道 端点 的 路 由 器 怎么 做 。 事 实证 明 MPLS 标 
记 非 常 适合 做 这 样 的 标识 符 。 可 以 用 一 个 例子 把 这 一 点 解释 清楚 。 | 

假设 在 一 个 支持 MPLS 的 路 由 器 网 络 上 ， 我 们 想 要 使 用 隧道 将 ATM 信 元 从 一 台 路 





(© 注意 ， 了 的 首部 长 度 为 20 字 节 ， 而 MPLS 只 有 4 字 节 ， 这 意味 着 使 用 MPLS 更 节省 带宽 。 
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由 带 传 送 到 另 一 台 路 由 器 ， 如 图 4-23 所 示 。 而 且 ， 假 设 我 们 的 目标 是 仿真 一 条 ATM È 
电路 ， 就 是 说 ， 信 元 到 达 带 有 某 个 VCI 的 输入 端口 的 隧道 入 口 或 首部 ， 然 后 从 某 个 输出 
端口 的 隧道 的 尾部 和 另 一 个 VCI 处 离开 。 为 做 到 这 一 点 ， 可 如 下 配置 首部 和 尾部 路 
由 器 : 

。 首 路 由 器 需要 配置 输入 端口 、 输 入 VCL 仿真 电路 的 多 路 分 解 标签 以 及 隧道 端 路 

由 器 的 地 址 。 

。 尾部 路 由 器 需要 配置 输出 端口 、 输 出 VCI 和 多 路 分 解 标签 。 

一 旦 路 由 器 有 了 这 些 信息 ， 我 们 就 可 以 看 到 ATM 信 元 是 如 何 转发 的 。 其 步 又 如 
图 4-24 所 示 。 

D 一 个 ATM 信 元 到 达 带 有 合适 VCI 值 〈 本 例 中 是 101) 的 指定 输入 端口 。 

2) 首部 路 由 器 添加 用 来 识别 仿真 电路 的 多 路 分 解 标 签 。 | 

3) 然后 ， 首 部 路 由 器 添加 第 二 个 标签 ， 这 是 将 使 分 组 到 达 尾 部 路 由 器 的 隧道 标签 
此 标签 通过 4. 3. 1 节 描 述 的 机 制 获得 。 

4) 首部 和 尾部 之 间 的 路 由 器 转发 只 使 用 隧道 标签 的 分 组 。 

5) 尾部 路 由 器 删除 隧道 标签 ， 找 到 多 路 分 解 标签 ， 并 识别 出 仿真 电路 。 

6) 尾部 路 由 器 将 ATM VCI 修改 为 正确 的 值 (本 例 中 是 202) ， 然 后 将 它 从 正确 的 端 
口 发 出 。 





6. ATM 信 元 发 出 
尾部 “202 










| J 区 To 
3. 添 加 隧道 标签 4. 分 组 向 尾部 转发 


图 4-24 沿 隧 道 转发 ATM 信和 元 





pv 





在 这 个 例子 中 ， 可 能 令 人 感到 奇怪 的 一 点 是 分 组 附加 了 两 个 标签 。 这 是 MPLS 中 一 个 
有 趣 的 特点 ， 标 签 可 以 在 一 个 分 组 中 堆 释 到 任意 深度 。 这 提供 了 某 些 有 用 的 可 扩展 的 能 
力 。 在 此 例 中 ， 这 使 得 一 个 障 道 可 能 包含 大 量 的 仿真 电路 。 

这 里 措 述 的 技术 可 以 用 来 仿真 很 多 其 他 第 二 层 服务 ， 包 括 帧 中 继 和 以 太 网 。 值 得 注意 
的 是 ， 也 可 以 使 用 IP 隧道 来 提供 本 质 上 相同 的 能 力 。 这 里 ，MPLS 的 主要 优点 是 隧道 首 
部 较 短 。 | 

在 MPLS 被 用 于 建立 隧道 第 二 层 的 服务 之 前 ， 它 也 用 于 支持 第 三 层 的 VPN。 我 们 不 
在 这 里 解释 第 三 层 VPN 的 细节 ， 因 为 它 很 复杂 ， 更 多 信息 的 来 源 参见 “扩展 阅读 ”， 但 是 
我 们 将 指出 ， 它 们 代表 当今 MPLS 最 流行 的 一 种 应 用 。 第 三 层 VPN 也 使 用 MPLS 标签 栈 
使 分 组 经 隧道 在 IP 网 络 中 传送 。 然 而 ， 使 用 隧道 传送 的 分 组 本 身 就 是 IP 分组， 因此 叫 第 
三 层 VPN。 在 第 三 层 VPN 中 ， 一 个 服务 提供 商 运 营 着 支持 MPLS 的 路 由 器 网 络 ， 为 任何 
数目 的 不 同 客户 提供 “虚拟 专用 ”IP 网 络 服 务 。 也 就 是 说 ， 提 供 商 的 每 个 客户 都 有 多 个 
站 点 ， 服 务 提供 商 给 每 个 客户 都 造成 了 网 络 上 没有 其 他 客户 的 错觉 。 客 户 看 到 IP 网 络 只 
与 它 自己 的 站 点 互联 ， 而 不 连接 其 他 站 点 。 这 意味 着 每 个 客户 在 路 由 和 编 址 上 与 其 他 客户 


都 是 隔离 的 。 客 户 A 不 能 直接 发 送 分 组 到 客户 B， 反 之 亦 然 . 客户 A 甚至 可 以 使 用 客户 
B 使 用 过 的 IP 地 址 。 其 基本 思想 表示 在 图 4.25 中 。 像 在 第 二 层 VPN 中 一 样 ，MPLS 用 于 
将 分 组 通过 隧道 从 一 个 站 点 发 送 到 另 一 个 站 点 。 然 而 ， 隧 道 的 配置 是 通过 对 BGP 的 某 些 
相当 复杂 的 运用 自动 完成 ， 这 一 点 超出 了 本 书 的 范围 。 
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图 4-25 一 个 第 三 层 VPN 的 例子 。 客 户 A 和 客户 BA 从 
一 个 提供 商 得 到 虚拟 专用 P 服务 


总 而 言 之 ，MPLS 是 用 于 解决 很 多 不 同 的 网 络 互联 问题 的 通用 工具 。 它 将 通常 与 虚 电 
路 网 络 相 联系 的 标签 交换 转发 机 制 与 IP 数据 报 网 络 的 路 由 和 控制 协议 结合 起 来 ， 产 生 一 
类 具有 两 者 折 中 性 质 的 网 络 。 这 样 就 能 扩展 IP 网 络 的 能 力 ， 包 括 使 路 由 的 控制 更 为 精确 ， 
并 且 支 持 一 系列 VPN 服务 。 








部 署 MPLS 

MPLS 最 初 的 设想 是 隐形 于 当今 的 互联 网 中 ， 对 大 多 数 客户 及 学 者 用 户 透 明 ， 而 只 提 
供 独 立 服务 提供 商 进 行 网 络 内 操作 的 技术 。 然 而 ， 现 在 几乎 是 强制 性 地 在 高 端 路 由 器 制造 
商 的 产品 中 包含 MPLS 功能 ， 并 在 服务 提供 商 中 广泛 应 用 。 至 少 对 于 关注 公共 互联 网 的 学 
生 和 研究 人 员 而 言 ，MPLS 技术 的 广泛 成 功 得 益 于 良好 的 保密 工作 。 

MPLS 的 两 个 主要 应 用 说 明了 MPLS 的 部 署 。 在 本 节 介 绍 的 第 三 层 VPN 应 用 是 
MPLS 的 重量 级 应 用 。 现 在 世界 上 几乎 每 一 个 服务 提供 商都 提供 基于 MPLS 的 第 三 层 
VPN 服务 。 由 于 第 三 层 VPN 服务 是 向 一 些 公司 提供 给 专门 的 IP 服务 而 不 是 提供 全 球 因 
特 网 连接 ， 所 以 通常 运行 于 与 因特网 分 离 的 路 由 器 上 。 然 而 ， 一 些 提 供 商 通过 一 个 共同 的 
骨干 网 运行 互联 网 服务 和 VPN 服务 。 


O 事实 上 ,客户 A 通 常 可 以 通过 受 限 途 径 发 送 数据 给 客户 B。 最 有 可 能 的 是 客户 A 和 客户 了 具有 到 整个 因特网 
的 连接 ， 且 客户 A 还 可 以 发 送 电子 邮件 ， 比 如 发 给 客户 B 网 络 内 部 的 邮件 服务 器 。VPN 提供 的 隐私 服务 可 阻 
止 客户 A 非 受 限 访问 客户 B 网 络 中 的 所 有 机 器 和 子 网 。 
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MPLS 的 第 二 大 用 途 是 显 式 路 由 ， 无 论 是 流量 工程 或 快速 重 路 由 ， 或 者 两 者 兼 而 有 
之 。 不 同 于 明确 地 销售 给 终端 客户 的 第 三 层 VPN 服务 ， 显 式 路 由 是 提供 给 提供 商 的 提高 
其 网 络 的 可 靠 性 和 降低 成 本 的 内 部 能 力 。 提 供 商 通 常 不 公开 他 们 的 内 部 网 络 的 设计 细节 ， 
因此 很 难 确定 有 多 少 提 供 商 实际 使 用 此 技术 。 很 显然 ， 使 用 MPLS 的 显 式 路 由 功能 的 提供 
商 比 使 用 VPN 功能 的 要 少 很 多 ,但 显示 路 由 仍然 有 充分 的 应 用 ， 特 别 是 当 带 宽 昂贵 的 时 
伐 或 者 需要 维持 低 换 罕 需求 的 时 候 《例如 支持 实时 服务 》。 


4. 4 移动 i 员 备 之 间 的 路 由 6 


面 对 移动 设备 对 因特网 体系 构 提出 的 挑战 时 我 们 不 必 过 二 于 吃惊 ， 因 为 因特网 是 在 计 
算 机 体型 庞大 、 不 可 移动 的 时 候 设 计 的 ， 即 使 因特网 设计 者 意识 到 移动 设备 可 能 在 未 来 出 
现 ， 也 大 可 不 必 将 兼容 这 些 设 备 作为 首要 任务 。 当 然 ， 今 天 手提 电脑 到 处 都 是 ， 尤 其 是 在 
笔记 本 电脑 和 具备 IP 功能 的 手机 ， 且 还 在 以 更 多 的 其 他 形式 出 现 ， 比 如 传感器 。 在 本 节 
中 ， 我 们 将 着 眼 于 一 些 由 移动 设备 的 出 现 而 带 来 的 挑战 ， 以 及 一 一 些 应 对 挑战 的 方法 。 


4.4.1 移动 网 络 的 挑战 


本 书 的 大 部 分 读者 可 能 已 经 使 用 过 移动 网 络 设 备 ， 对 许多 人 来 说 ， 移 动 设 备 已 经 成 为 
常态 。 所 以 有 理由 认为 移动 网 络 是 一 个 已 经 解决 的 问题 。 当 然 ， 今 天 很 容易 发 现 一 个 无 线 
热点 并 使 用 802. 11 或 一 些 其 他 的 无 线 网 络 协议 与 之 连接 ， 从 而 获得 很 好 的 网 络 服务 。 使 
热点 成 为 可 能 的 关键 技术 是 DHCP ( 详 见 3. 2.7 节 )。 你 能 坐 在 咖啡 馆 ， 打 开 你 的 笔记 本 
并 获取 IP 地址， 使 笔记 本 与 一 台 默 认 路 由 器 和 一 个 域名 系统 (DNS) 服务 器 ( 见 9. 3.1 
节 ) 连接 ， 运 行 应 用 程序 获取 需要 的 东西 。 | : | 

然而 如 果 我 们 仔细 观察 ， 对 于 某 些 应 用 场景 来 说 ， 每 次 移动 时 只 是 由 DHCP 得 到 一 
个 新 的 IP 地 址 很 明显 是 不 够 的 。 假 设 你 正在 用 笔记 本 或 智能 手机 打 IP 电话 ， 你 会 从 一 个 
热点 转 到 另 一 个 ， 甚 至 从 802. 11 转换 到 3G 无 线 网 络 连接 。 

显然 ， 当 你 从 一 个 接 人 网 络 移动 到 另 一 
个 时 ， 你 需要 一 个 对 应 新 网 络 的 新 的 IP 地 
址 。 但 是 ， 与 你 通信 的 另 一 端的 计算 机 或 电 
话 不 能 立即 知道 你 已 移动 以 及 你 的 新 TP 地 
址 。 因 此 ， 如 果 缺 少 相 应 的 机 制 ， 会 使 分 组 
继续 发 送 到 你 之 前 使 用 的 是 地 址 ， 而 不 是 你 
”现在 的 地 址 。 这 个 问题 如 图 4- 26 所 示 ， 当 
移动 节点 从 4. 26a 中 的 802. 11 网 络 移动 到 
4. 26b 中 的 蜂 宽 网 络 时 ， 通 信和 节点 (corres- 
pondent node) 分 组 需要 找到 通 向 移动 节点 
所 在 的 新 网 络 的 途径 。 | 

现在 有 许多 不 同 的 方式 来 解决 刚才 描述 图 4-26 从 一 个 通信 节点 向 一 个 移动 节点 转发 分 组 








的 问题 ， 我 们 会 在 下 面 讨论 这 些 方法 。 假 设 有 一 些 方法 来 重 定向 分 组 以 便 它 们 到 达 你 的 新 
地 址 而 不 是 旧地 址 ， 随 之 而 来 的 问题 将 涉及 安全 性 。 例 如 ， 如 果 有 一 种 机 制 使 得 我 可 以 说 
“我 的 新 IP 地 址 是 X”， 那 么 如 何 防范 攻击 者 在 没有 得 到 我 许可 的 情况 下 发 布 这 样 的 消息 ， 
从 而 导致 其 接收 我 的 分 组 或 重 定向 转发 到 一 些 不 知情 的 第 三 方 ?” 由 此 可 见 ， 安 全 性 和 移动 
性 之 间 存 在 密切 的 关系 。 | By 

上 述 讨论 强调 的 重点 是 IP 地 址 实际 上 承担 了 两 个 任务 。 它 们 不 但 作为 终端 的 标识 符 
(identifier) ， 也 用 于 定位 〈locate) 终端 。 我 们 将 标识 符 看 作 终 端的 长 期 命名 ， 而 将 定位 
器 看 作 有 关 如 何 将 分 组 路 由 至 终端 的 可 能 的 临时 信息 。 只 要 设备 不 动 或 不 经 常 移动 ， 两 个 
任务 都 使 用 一 个 单一 的 地 址 似乎 很 合理 。 但 是 ， 一 旦 设备 开始 移动 ， 你 宁愿 要 一 个 不 随 移 
动 而 变化 的 标识 符 ， 这 种 标识 符 可 以 称 为 终端 标识 符 (endpoint identifier) 或 主机 标识 符 
(host identifier) ， 另 外 还 有 分 离 的 定位 回 〈locator) 。 将 定位 器 与 标识 符 分 离 的 想法 已 经 
存在 了 很 长 时 间 ， 下 面 所 描述 的 大 多 数 处 理 移动 问题 的 方法 都 提供 了 某 种 形式 的 分 离 。 
“IP 地 址 不 会 改变 的 假设 存在 于 不 同 的 地 方 。 例 如 ， 我 们 将 在 下 一 章 讨 论 的 像 TCP 这 
样 的 传输 协议 都 假设 IP 地 址 在 连接 的 整个 生命 周期 中 保持 不 变 ， 因 此 在 移动 世界 操作 的 
传输 协议 需要 重新 评价 这 个 假设 。 | | 

虽然 我 们 都 熟悉 移动 终端 ， 但 值得 注意 的 是 路 由 器 也 可 以 移动 。 这 当然 比 今天 的 移动 
终端 少见 ， 但 在 很 多 环境 中 移动 路 由 器 可 能 是 有 意义 的 。 一 个 例子 是 应 急 小 组 试图 在 某 些 
自然 灾害 已 经 破坏 了 所 有 固定 基础 设施 之 后 部 署 网 络 。 当 网 络 中 的 所 有 节点 都 是 移动 的 ， 
而 不 止 是 终端 时 ， 我 们 还 需要 考虑 其 他 问题 。 我 们 将 在 4. 4. 2 节 讨论 这 个 主题 。 

正如 很 多 技术 一 样 ， 移 动 性 支持 引发 了 增 量 部 署 问题 。 在 网 络 发 展 的 前 几 十 年 中 ， 因 
特 网 全 部 由 不 移动 的 节点 组 成 ， 而 且 假 设 在 可 预见 的 未 来 有 很 多 路 由 器 和 主机 仍然 如 此 是 
很 合理 的 。 因 此 ， 移 动 解决 方案 需要 处 理 增 量 部 署 。 相 反 ，IPv6 可 以 在 一 开始 时 就 将 移 
动 性 作为 其 能 力 的 一 部 分 而 加 入 ， 从 而 具有 诸多 优势 。 ek, = 

在 我 们 开始 探索 支持 移动 设备 的 方法 之 前 ， 需 要 澄清 几 点 。 通 常人 们 会 对 无 线 网 络 和 
移动 产生 混淆 。 虽 然 移动 和 无 线 因 为 显而易见 的 原因 通常 会 同时 出 现 ， 但 无 线 连接 其 实 是 
在 没有 连 线 的 情况 下 从 A 到 B 获得 数据 ， 正 如 第 2 章 讨论 的 那样 。 这 里 移动 性 是 指 当 一 
个 节点 在 通信 过 程 中 移动 的 时 候 要 处 理 的 问题 。 当 然 很 多 使 用 无 线 信道 的 节点 并 不 具有 移 
动 性 ， 且 有 时 移动 节点 会 使 用 有 线 通 信 〈 虽 然 这 种 状况 不 一 定常 见 ) 。 

最 后 我 们 在 本 章 很 可 能 会 关注 称 为 网 络 层 移动 性 (network-layer mobility) 的 问题 ， 
也 就 是 关注 如 何 处 理 从 一 个 网 络 转移 到 另 一 个 网 络 的 节点 。 正 像 我 们 在 2.7 节 看 到 的 ， 对 
于 在 同一 个 802.11 网 络 中 从 一 个 接 人 点 转移 到 另 一 个 接 人 点 的 情况 ， 可 以 用 特定 于 
802. 11 的 机 制 处 理 ， 当 然 移动 电话 网 也 同样 能 解决 移动 性 问题 。 但 对 于 像 因 特 网 这 样 的 
异 构 系统 ， 我 们 就 需要 对 更 广泛 网 络 间 的 移动 性 提供 支持 。 
4.4.2 路 由 到 移动 主机 (移动 IP) 

”移动 PP 是 当前 互联 网 体系 结构 解决 移动 主机 分 组 路 由 的 基础 机 制 。 它 引入 了 一 些 新 
功能 ， 但 不 需要 对 非 移动 主机 和 大 多 数 路 由 器 做 任何 改变 ， 从 而 解决 之 前 提出 的 增 量 部 署 
问题 。 

移动 主机 是 假设 有 一 个 称 为 本 地 地 址 (home address) 的 永久 IP 地址 ， 这 个 地 址 拥有 
与 它 的 本 地 网 络 (home E R JE EI AY) ARTA. 其 他 主机 首先 发 送 分 组 给 移动 主机 时 
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使 用 这 个 地 址 ， 因为 这 个 地 址 不 会 改变 ， 所 以 在 主机 漫游 时 ， 长 期 运行 的 应 用 可 以 使 用 

。 我 们 可 以 将 之 看 作 主 机 的 长 期 标识 
a e a te es mth ed 
一 个 新 的 网 络 地 址 ,© 这 个 地 址 在 主机 每 次 漫游 时 都 会 改变 ， 因 此 我 们 可 以 认为 它 更 像 是 
主机 定位 器 ， 但 重要 的 是 要 注意 主机 在 申请 一 个 外 地 网 络 的 新 IP 地 址 时 并 不 丢弃 其 本 地 
地 址 。 正 如 我 们 下 面 将 要 看 到 的 ， 本 地 地 址 决定 了 主机 在 移动 时 维持 通信 的 能 力 。 

虽然 大 部 分 路 由 器 保持 不 变 ， 但 支持 移动 性 需要 至 少 有 一 台 路 由 器 添加 一 些 新 的 功 
能 ， 这 人 台 路 由 器 称 作 移 动 节 Pre Chome agent)， 位 于 移动 主机 的 本 地 网 络 。 在 
某 些 情况 下 还 需要 另 一 个 增强 功能 的 路 
由 部 作为 外 地 代理 (foreign agent)， 它 
位 于 移动 节点 离开 本 地 网 络 后 连接 到 的 
那个 网 络 。 我 们 先 考 虑 使 用 外 地 代理 时 
移动 IP 的 操作 。 一 个 具有 本 地 代理 和 外 | E 
地 代理 的 网 络 的 例子 如 图 4-27 所 示 。 本 地 网 络 T T 






外 地 代理 
(12.0.0.6) 


| 移动 主机 
本 地 代理 和 外 地 代理 周期 性 的 采用 网络 18 (18.5.0.9) 
关联 的 通知 信息 公布 其 存在 。 一 个 移动 E 4-27 移动 主机 和 移动 代理 


主机 也 会 在 关联 一 个 新 网 络 时 发 布 通 知 信息 。 本 地 代理 所 发 的 通知 使 一 个 移动 主机 可 以 在 
离开 其 本 地 网 络 前 学 到 本 地 代理 的 地 址 信息 。 当 移动 主机 关联 到 一 个 外 地 网 络 时 ， 外 地 代 
理 则 联系 本 地 代 理 ， 提供 Re 地 址 ( care- Oad E mT He Jak a 常 是 外 地 代 n 的 IP 
地 址 。 

在 这 一 点 上 ， 我 们 可 以 看 到 ， 任 何 主机 试图 发 送 一 个 分 组 到 移动 主机 时 会 发 送 一 个 与 
该 节点 本 地 地 址 相同 的 目标 地 址 。 正 常 的 TP 转发 会 导致 分 组 到 达 移动 节点 的 本 地 代理 所 
设 定 的 本 地 网 络 。 因 此 ， 我 们 可 以 将 传递 数据 分 组 到 移动 节点 问题 分 为 三 部 分 : 

”1) 本 地 代理 如 何 截取 目标 为 移动 节点 的 分 组 ? 

2) 本 地 代理 如 何 传送 此 分 组 到 外 地 代理 ? 
“3) 外 地 代理 如 何 将 此 分 组 传送 到 移动 节点 ? | | 

第 二 个 问题 可 能 比较 简单 ， 如 图 4-27 所 示 ， 本 地 代理 是 从 发 送 主机 到 内 部 网 络 的 唯 
一 途径 ， 所 以 一 定 能 收 到 以 移动 节点 为 目标 的 分 组 .但 如 果 发 送 (通信) 节点 在 网 络 18， 
或 者 另 一 个 连接 到 网 络 18 的 路 由 器 试图 不 通过 本 地 代理 传送 分 组 呢 ? 对 于 这 个 问题 ， 本 
地 代理 使 用 了 一 种 称 为 ARP 代理 (proxy) 的 技术 把 自己 模拟 为 移动 节点 。 除 了 本 地 代理 
在 ARP 消息 中 插入 移 动 节 点 的 TP 地 址 而 不 是 自己 的 地 址 以 外 ， 这 项 工作 很 像 在 3.2.6 节 
描述 的 地 址 解析 协议 (ARP)。 由 于 使 用 自己 的 硬件 地 址 ， 所 有 同一 个 网 络 的 节点 需要 关 
联 移动 节点 的 IP 地 址 和 本 地 代理 的 硬件 地 址 。 这 个 过 程 中 微妙 的 是 事实 上 ARP 消息 可 能 
由 其 他 网 络 的 节点 缓存 。 为 确保 该 缓存 时 序 无 效 ， 当 移动 节点 在 外 地 代理 注册 的 同时 ， 本 
地 代理 发 送 了 一 个 ARP 消息 。 Ce 所 以 称 为 
4% (gratuitous) ARP, | 

第 二 个 问题 是 传送 截取 的 分 组 到 外 地 代理 。 这 里 使 用 的 是 在 3. 2. 9 节 描 述 的 隧道 技 
术 。 本 地 代理 简单 地 封装 一 个 具有 目标 为 外 地 代理 的 IP 首部 的 分 组 且 分 发 到 互联 网 。 所 


© HY DHCP 与 移动 IP 几乎 同时 开发 ， 所 以 原始 的 移动 IP 标准 不 需要 DHCP。 不 过 ， 今 天 DHCP 已 经 无 处 不 在 。 
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有 途经 的 路 由 器 只 能 看 到 以 外 地 代理 的 IP 地 址 为 目标 的 IP 分 组 。 换 个 角度 看 ，IP 隧道 建 
立 在 本 地 代理 和 外 地 代理 之 间 ， 且 本 地 代理 只 将 目标 为 移动 节点 的 分 组 放 入 隧道 。 

当 一 个 分 组 最 终 抵达 外 地 代理 时 ， 被 封装 的 额外 IP 首部 被 去 除 而 露出 移动 节点 的 目 
标本 地 代理 的 IP 分 组 。 显 然 外 地 代理 不 能 处 理 旧 的 IP 分 组 ， 因 为 这 将 导致 分 组 被 发 送 回 
本 地 代理 。 外 地 代理 会 ee ee ne a 
Chard ware) 地 址 〈 比 如 以 太 网 地 址 ) 。 过 程 是 注册 过 程 的 一 部 分 。 

ee 
身 可 以 实现 外 地 代理 功能 。 Ce ee 
使 用 DHCP)。 此 地 址 被 作为 转交 地 址 使 用 。 在 本 例 中 ， 这 个 地 址 的 网 络 号 为 12。 此 种 方 
ee te aaa 因此 ， 只 需 增加 本 地 代理 和 
移动 节点 上 的 一 些 新 软件 就 可 以 获得 移动 性 〈 假 设 外 部 网 络 使 用 DHCP)。 

那么 发 送 到 其 他 方向 的 流量 如 何 处 理 呢 (比如 由 移动 节点 到 固定 节点 )? j 这 比 之 前 讨 

论 的 要 更 容易 。 移 动 节 点 仅仅 在 卫 分 组 的 源 区 域 放 置 永久 地 址 ， 同 时 放置 固定 节点 的 IP 
nein 则 分 组 即 可 转发 到 固定 节点 。 当 然 ， 如 果 两 个 节点 都 是 移动 的 ， 这 个 过 
程 在 单个 方向 上 分 别 采 用 。 

1. 移动 IP 路 由 优化 | 

上 述 方法 有 一 个 重大 缺陷 ， 从 相关 节点 到 移动 节点 的 路 由 明显 不 是 最 优 的。 一 个 极端 
的 例子 是 当 一 个 移动 节点 和 发 送 节点 在 同一 个 网 络 中 ， 但 移动 节点 的 本 地 网 络 在 互联 网 远 
端的 情况 。 发 送 方 通信 节点 将 所 有 分 组 地 址 设 为 本 地 网 络 地 址 ，i 这 些 分 组 需要 通过 互联 网 
到 达 本 地 代理 ， 然 后 通过 隧道 穿 过 互联 网 到 达 外 地 代理 。 如 果 通 信 节 点 可 以 确认 移动 节点 
在 同一 个 网 络 且 能 直接 传输 分 组 的 话 ， 这 样 显然 很 好 。 但 在 大 多 数 情况 下 ， 目 标 是 尽 可 能 
直接 地 从 通信 节点 而 不 通过 本 地 代理 传送 分 组 。 很 多 情况 下 这 被 认为 是 一 个 三 角 路 由 问题 
(triangle routing problem) ， 因 为 从 通信 节点 通 重 过 本 地 代理 到 移动 节 ， 点 经 过 了 一 个 三 角形 
的 两 条 边 ， 而 第 三 条 边 是 最 直接 的 途径 。 

解决 三 角 路 由 的 基本 思路 是 使 通信 节点 获取 移动 节点 的 转交 地 址 。 通 信 节 点 可 以 创建 
自己 的 通 向 外 地 代理 的 隧道 ， 且 这 被 认为 是 优化 解决 方法 。 如 果 发 送 者 安装 了 必要 的 软件 
来 学 习 转交 地 址 并 创建 自己 的 隧道 ， 则 路 由 可 以 被 优化 。 反 之 ， 分 组 采用 次 优 的 路 由 。 

当 一 个 本 地 代理 看 到 一 个 分 组 且 此 分 组 目标 为 自己 支持 的 移动 节点 时 ， 本 地 代理 可 以 推 
断 出 发 送 者 是 否 采用 优化 路 由 。 因 此 ， 本 地 代理 除了 转发 数据 分 组 到 外 地 代理 外 ， 还 向 源 发 
送 “ 绑 定 更 新 ”消息 。 源 如 果 具 备 此 能 力 ， 则 使 用 此 绑 定 更 新 创建 一 条 绑 定 缓存 (binding 
cache) 记录 ， 其 中 存放 从 移动 节点 地 址 到 转发 地 址 的 映射 列表 。 下 次 这 个 源 要 发 送 数据 分 组 
给 移动 节点 时 ， 就 能 从 缓存 中 找到 该 绑 定 且 通 过 隧道 直接 发 送 分 组 到 外 地 代理 。 

这 个 方案 存在 一 个 明显 的 问题 ， 就 是 当 移 动 主机 转 到 新 网 络 的 时 候 ， 绑 定 缓存 可 能 过 
时 了 。 如 果 过 时 信息 被 利用 ， 外 地 代理 将 从 隧道 中 收 到 发 往 移动 节点 的 分 组 ， 但 该 分 组 已 
不 在 此 网 络 注册 。 此 种 情况 下 ， ee 
发 送 者 并 告知 其 不 再 使 用 此 缓存 记录 。 这 个 方案 只 在 外 地 代理 不 是 移动 节点 本 身 时 使 用 。 
所 以 ， 缓 存 记 录 需 要 在 一 ss 

如 上 所 述 ， 移 动 路 由 提出 了 一 些 有 趣 的 安全 挑战 ， 现 在 我 们 已 经 看 到 移动 IP 是 如 何 
工作 的 ， 这 些 挑 战 变 得 更 清晰 了 。 比 如 ， 一 个 攻击 者 希望 截取 发 送 到 互联 网 其 他 节点 的 分 
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组 时 ， 可 能 以 自己 是 该 节点 新 外 地 代理 的 身份 联系 该 节点 的 本 地 代理 。 因 此 ， 很 明显 这 里 
需要 一 些 认证 机 制 。 我 们 将 在 第 8 章 中 讨论 该 机 制 。 | 

2. IPv6 的 移动 性 E 

_IPv4 和 IPv6 对 移动 性 的 支持 存在 很 大 差别 。 最 重要 的 是 ， 可 以 从 头 开始 在 IPv6 标准 
中 创建 移动 性 支持 ， 这 减轻 了 一 部 分 增 量 部 署 问题 〈 或 者 更 准确 地 说 ，IPv6 是 一 个 大 增 
量 部 署 问题 ， 如 果 得 到 解决 ， 则 可 将 移动 支持 作为 分 组 的 一 部 分 ) 。 | 
由 于 具有 IPv6 功能 的 主机 在 接 入 外 地 网 络 时 可 以 获得 一 个 地 址 (采用 IP v6 内 核 规范 
中 定义 的 多 种 机 制 )， 所 以 移动 IPv6 去 除了 外 地 代理 且 使 得 每 台 主 机 具备 扮演 外 地 代理 角 
色 的 能 力 。 | | 

IPv6 作为 移动 IP 的 另 一 个 有 趣 方面 是 包含 了 一 组 灵活 的 扩展 首部 ， 正 如 在 4.1.3 节 
介绍 的 那样 。 这 可 用 于 上 述 优化 路 由 的 场景 中 。 不 同 于 通过 转交 地 址 建立 隧道 将 分 组 发 送 
到 移动 节点 ，IPv6 可 以 通过 包含 在 路 由 首部 的 本 地 地 址 发 送 IP 分 组 到 转发 地 址 。 这 个 首 
部 会 被 中 间 节 点 忽略 ， 但 移动 节点 会 把 分 组 当 作 发 送 给 本 地 地 址 一 样 来 处 理 ， 可 继续 用 固 
E IP 来 传递 给 高 层 协议 。 采 用 扩展 首部 而 不 是 隧道 技术 可 以 使 带宽 占用 和 处 理 更 经 济 。 

最 后 ， 我 们 介绍 一 些 移动 网 络 中 的 开放 性 问题 。 移 动 设备 的 电源 消耗 管理 越 来 越 重 
要 ， 这 样 具有 有 限 电 量 且 体积 更 小 的 设备 才能 被 制造 出 来 。 移动 自 组 (ad hoc) 网 也 存在 
很 多 特殊 挑战 〈 见 相关 主题 ) ， 这 种 网 络 在 没有 任何 固定 节点 时 使 一 组 移动 节点 组 成 网 络 。 
还 有 一 些 移动 网 络 、 传 感 器 网 络 (sensor network) 类 的 挑战 兽 在 以 前 提起 过 。 传 感 器 一 
般 体 积 小 、 昂 贵 且 由 电池 供电 ， 这 意味 着 需要 考虑 很 多 低能 耗 和 有 限 处 理 能 力 的 问题 。 另 
外 ， 既 然 无 线 通 信和 移动 性 通常 会 齐头并进 ， 持 续 的 无 线 技术 发 展 将 使 移动 网 络 产 生 新 的 
挑战 和 机 会 。 















移动 自 组 网 
本 节 的 大 部 分 篇 幅 中 会 假设 只 有 终端 节点 (主机 ) 是 移动 的 ， 这 可 以 和 当今 网 络 中 我 
们 处 理 的 大 部 分 情况 吻合 。 我 们 的 笔记 本 电脑 和 手机 四 处 移动 且 和 固定 的 网 络 设 施 相连 
接 ， 比 如 通过 固定 链 路 连接 到 互联 网 骨干 网 的 发 射 塔 和 802.11 接 入 上 点。 然而， 很 多 现代 
路 由 器 做 得 很 小 且 足 以 移动 ， 可 以 用 在 移动 网 络 环境 ， 比 如 在 移动 车 辆 之 间 构 建 网 络 。 因 
为 路 由 协议 是 动态 的 ， 所 以 可 以 想象 移动 路 由 不 应 成 为 问题 ， 而 且 这 大 致 是 正确 的 。 然 
而 ， 如 果 所 有 或 者 大 部 分 网 络 节点 都 是 移动 的 呢 ? 极端 逻辑 下 ， 存 在 一 个 完全 没有 固定 设 
施 的 网 络 ， 只 有 一 些 移动 节点 ， 其 中 一 些 或 全 部 用 作 路 由 器 。 标 准 的 路 由 协议 能 在 这 样 的 
环境 下 工作 四 ? 
这 种 没有 固定 设施 且 所 有 设备 都 是 移动 的 环境 被 命名 为 移动 自 组 网 MANET 是 解决 
该 问题 的 IETF 工作 组 的 名 字 )。 为 了 理解 为 什么 移动 自 组 网 需要 特殊 的 解决 方案 ， 我 们 
可 以 想象 以 下 状况 : 不 像 固定 网 络 ， 任 何 给 定 的 自 组 网 路 由 器 的 邻居 因为 节点 移动 而 经 尝 
变化 。 既 然 任何 邻居 关系 变化 都 需要 一 个 路 由 协议 消息 发 送 并 计算 新 的 路 由 表 ， 因 此 很 容 
易 发 现 必 须 考虑 使 用 一 个 对 环境 没有 优化 的 协议 。 加 剧 这 个 问题 的 事实 是 通信 是 无 线 的 ， 
要 消耗 电量 ， 而 且 很 多 移动 设备 可 能 会 耗 尺 电池 电量 。 链 接 带 宽 可 能 也 是 有 限 的 。 因 此 ， 
减少 发 送 路 由 协议 消息 以 及 重新 洪 泛 给 所 有 邻居 引起 的 开销 是 自 组 路 由 需 考 虑 的 关键 


问题 。 


202 ZL 


在 撰写 本 书 的 时 候 ， 很 多 移动 自 组 网 的 优化 路 由 方法 被 提出 。 这 些 方法 可 以 分 为 被 动 
方法 和 主动 方法 。 优 化 链 路 状态 路 由 (Optimized Link State Rount, OLSR) 是 主流 的 主 
动 方法 ， 且 通过 其 名 字 能 够 感觉 出 它 的 内 容 。OLSR 将 传统 链接 状态 协议 “如 OSPF, M 
3.3.3 W) 和 很 多 减少 洪 泛 路 由 消息 的 优化 方法 组 合 在 一 起 。 被 动 协议 包括 目 组 织 按 需 距 
离 向 量 (Ad Hoc On-Demand Distance Vector, AODV) 和 动态 按 需 移动 上 自 组 网 (Dynamic 
MANET On Demand，DYMGO)， 两 者 都 是 基于 3. 3.2 节 介 绍 的 距离 向 量 协议 。 这 些 方 法 
专注 于 仅 在 需要 时 才 建 立 路 由 来 减少 路 由 协议 开销 总 量 ， 比 如 当 一 个 给 定 节 点 向 特定 目的 
”地 发 送 消息 时 。 有 丰富 的 解决 方案 空间 可 供 人 们 权衡 选择 ， 而 且 这 个 空间 处 于 持续 的 探索 
ae 


5 小 结 

本 章 的 主题 是 处 理 因特网 的 持续 增长 问题 。 因 特 网 持续 连接 更 多 的 用 户 ， 且 每 个 用 户 
发 送 更 多 的 应 用 流量 〈 如 视频 流 等 )， 因 此 需要 更 多 带宽 。 虽 然 因特网 被 证 明 是 一 个 具有 
HAT RENAE, LAHAT REAR R AS RTT RE, Bee 
还 需要 不 断 进 化 来 支持 新 的 能 力 和 服务 。 

当前 主要 的 扩展 性 问题 是 地 址 空 间 的 有 效 使 用 和 路 由 表 随 互联 网 增长 而 增长 的 问题 
层次 化 IP 地 址 格式 ， 包 括 网 络 部 分 和 主机 部 分 ， 为 我 们 管理 可 扩展 性 提供 了 一 个 层次 。 
路 由 区 则 提供 了 另外 一 个 层次 。 自 治 系统 允许 我 们 将 路 由 问题 划分 为 两 个 部 分 ， 域 内 路 由 
和 域 间 路 由 ， 每 一 种 路 由 都 比 总 体 的 路 由 问题 小 很 多 。 因 特 网 的 域 间 路 由 协议 BGP 在 处 
E en ie 

管 采用 了 多 个 步骤 来 扩展 IPv4， 但 显然 很 快 就 需要 一 个 新 的 更 长 的 地 址 格式 。 这 需 

Po e A 新 协议 被 命名 为 IPv6， 开 始 时 被 称 为 下 一 代 IP 
(IPng) 。IPv6 提供 128 位 地 址 ， 且 具有 基本 类 似 CIDR 的 寻 址 和 路 由 方法 。 昌 然 IPv6 发 
布 了 诸多 新 能 力 ， 但 其 主要 优势 在 于 支持 超大 数量 可 寻 址 设备 。 

最 后 ， 因 特 网 不 但 要 解决 可 扩展 性 问题 ， 还 需要 功能 方面 的 进化 。 在 这 方面 ， 我 们 看 
到 原始 IP 数据 报 模型 上 三 个 方面 的 增强 。 首 先是 多 播 ， 使 同一 组 数据 可 以 高 效 地 传输 给 
一 组 接收 者 。 正 如 单 播 一 样 ， 多 播 面临 的 很 多 挑战 都 与 可 扩展 性 相关 ， 人 们 开发 了 大 量 不 
同 协议 和 多 播 模型 ， 用 以 优化 不 同 环境 下 的 扩展 性 及 路 由 。 第 二 是 MPLS， 将 虚 电 路 网 络 
中 的 一 些 理念 引入 卫 且 广泛 应 用 于 扩展 IP 能 力 。MPLS 的 应 用 范围 覆盖 了 从 流量 工程 到 
支持 因特网 上 的 虚拟 专用 网 等 。 最 后 是 移动 性 支持 ， 这 个 特性 与 最 初 IP 设计 者 的 想法 相 
去 其 还， 但 这 个 特性 随 着 可 务 动 联网 设备 《包括 主机 和 路 由 器 ) 的 增多 而 变 :得 越 来 越 
重要 。 


日 从 IPv4 地 址 空间 不 足 变 得 非常 严重 以 至 于 需要 一 个 新 版 的 IP 以 来 ， 已 经 过 去 了 大 
约 20 年 的 时 间 。 最 初 的 IPv6 规范 也 存在 了 超过 15 年 。 现 在 有 很 多 支持 IPv6 的 主机 操作 
系统 ， 并 且 主 要 的 路 由 器 生产 商 也 在 他 们 的 产品 中 对 IPv6 提供 不 同 程度 的 支持 。 至 写本 
书 时 止 ，IPv6 还 没有 在 因特网 上 进行 真正 意义 的 部 署 。 什 么 nae 进行 实 实 在 在 的 部 
BURT AR AS RAPRA. RCS AMEN | 





IPv6 并 不 那么 急需 的 原因 之 一 是 NAT (网 络 地 址 转换 ， 本 章 前 面 有 所 描述 ) 的 广泛 
使 用 。 因 为 提供 商 将 IPv4 地 址 看 作 稀 有 资源 ， 所 以 只 将 很 少 的 一 部 分 分 配给 用 户 ， 或 者 
按 使 用 的 地 址 数量 收费 ; 客户 的 很 多 设备 被 隐藏 到 NAT 设备 之 后 ， 只 使 用 一 个 IPv4 地 
址 。 例 如 ， 这 就 像 有 多 个 使 用 IP 地 址 的 设备 的 家 庭 网 络 ， 在 网 络 中 使 用 某 种 NAT 来 节约 
地 址 。 因 此 ， 可 能 促使 部 署 IPv6 的 一 个 因素 是 那些 使 用 NAT 时 不 能 很 好 工作 的 应 用 。 对 
于 客户 端 -服务 器 应 用 ， 当 客户 地 址 隐藏 在 NAT 盒 之 后 工作 得 非常 好 ， 而 对 等 应 用 则 稍 差 
一 些 。 例 如 ， 多 人 游戏 和 IP 电话 就 是 不 使 用 NAT 可 以 工作 得 更 好 ， 并 因此 从 更 宽松 的 地 
址 分 配 策略 中 受益 的 应 用 实例 。 然 而 ， 即 使 这 些 应 用 已 经 可 以 不 使 用 NAT， 但 NAT 技术 
arre: 

近 些 年 来 ， 获 得 成 块 的 IPv4 地 址 已 经 变 得 更 加 困难 ， 特 别 是 在 美国 以 外 的 其 他 国家 
尤为 明显 。 随 着 困难 变 得 越 来 越 大 ， 提 供 商 为 客户 提供 IPv6 地 址 的 动机 也 随 之 出 现 。 同 
时 ， 对 于 现 有 的 提供 商 来 说 ， 提 供 IPv6 是 很 大 的 附加 开销 ， 因 为 当 他 们 开始 提供 IPv6 时 
并 不 能 终止 对 IPv4 的 支持 。 这 就 意味 着 提供 商 路 由 表 的 尺寸 可 能 会 增长 ， 因 为 它们 必须 
携带 所 有 现 有 的 IPv4 前 级 ， 再 加 上 IPv6 前 级 。 =: 

现在 ，IPv6 的 部 署 几乎 只 发 生 在 研究 性 网 络 上 。 一 小 部 分 服务 提供 商 开始 提供 IPv6 
(通常 带 有 一 些 政府 行为 的 动机 ) ， 特 别 是 在 美国 以 外 。 商 业 路 由 器 和 主机 操作 系统 不 同 程 
度 地 支持 IPv6。 可 以 肯定 ，IPv6 的 部 署 会 加 快 ， 但 似乎 很 可 能 绝 大 多 数 主 机 和 网 络 将 至 
少 在 很 多 年 中 都 只 运行 IPv4。 | 本 a 


扩展 阅读 


由 Bradner 和 Mankin 撰写 的 RFC 是 扩展 阅读 的 首选 ， 它 综述 了 高 速 增长 的 因特网 如 
何 对 原 有 体系 结构 的 扩展 能 力 施 压 ， 并 最 终 产生 了 IPv6 Paxson 的 文章 描述 了 路 由 器 在 
因特网 上 的 行为 研究 ， 虽 然 写 于 15 年 之 前 ， 但 该 文章 仍然 被 高 频率 地 引用 且 给 出 了 很 好 
的 研究 人 员 如 何 学 习 因特网 动态 行为 的 例子 。 最 后 一 篇 文章 讨论 多 播 ， 解 释 了 MBone 上 
最 初 使 用 的 多 播 方法 。 : | 


e Bradner, S. , and A. Mankin. The recommendation for the next generation IP pro- 





tocol. Request for Comments 1752, January 1995. 
e Paxson, V. End-to-end routing behavior in the Internet. SIGCOMM’96, pages 25- 
38, August 1996. 
e Deering, S. , and D. Cheriton. Multicast routing in datagram internetworks and ex- 
tended LANS. ACM Transactions on Computer Systems 8 (2): 85-110, 
May 1990. 
一 些 有 趣 的 关于 因特网 路 由 行为 的 实验 研究 在 Labovitz 等 [LAAJ00] 进行 了 解释 。 
另外 一 些 关 于 BGP 稳定 性 的 有 用 文章 可 见 Gao 和 Rexford LGRO1] . 
IPv6 相关 的 RFC 集合 可 见 Bradner 和 Mankin [BM95 |， 一些 新 的 [Pv6 规范 可 见 
Deering 和 Hinden [DH98]， 还 有 很 多 其 他 的 IPv6 相关 RFC, 
协议 无 关 多 播 (PIM) 在 Deering 等 [DEF+ 96] 和 Fenner 等 [FHHK06] 进行 了 描 
述 ，PIM-SSM 在 LBha03」 进行 了 描述 。[LWil00」 和 LHC99] 都 是 很 好 的 介绍 多 播 历 史 
细 市 的 读物 。 : 7 
MPLS 相关 协议 和 开发 可 参考 Chandranmenon 等 [| CV95 |], Rekhter  [RDR* 97 | 和 
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Davie 等 [DR00]。 后 面 的 文献 描述 了 MPLS 的 一 些 应 用 ， 如 流量 工程 、 网 络 故障 的 快速 
恢复 以 及 虚拟 专用 网 等 。[RR06] 提供 了 MPLS/BGP VPN 的 规范 ， 它 是 MPLS 网 络 上 能 
够 提供 的 第 三 层 VPN 的 一 种 形式 。 

最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 

http://www. isoc. org/internet/history/ : 一 个 与 互联 网 历史 相关 的 链接 集合 ， 包 括 
最 初 构建 互联 网 的 研究 人 员 写 的 文章 。 

http://bgp. potaroo. net/; 许多 互联 网 路 由 表 增 长 数据 ， 包 括 IPv6 WE. 





习题 
1. 如 图 4-28 所 示 ， 网 络 中 水 平 线 表 示 传 输 提 供 商 ， 几 条 垂直 线 为 提供 商 之 间 的 链接 。 
(a) 提供 商 Q 的 BGP 代言 人 可 收 到 几 条 到 P ik 
Cb) 假设 Q 和 了 采用 的 策略 是 将 输出 流量 路 由 “| 提供 者 0 | 
RRR ARM, Die “TT 
小 化 开销 。 那 么 从 主机 A 到 主机 B 和 从 主 | Bo 
机 B 到 主机 A， 分 别 会 采用 哪 条 路 径 ? 图 4-28 习题 1 的 网 络 


Cc) 为 使 BA 的 传输 使 用 更 近 的 链 路 1，Q 应 如 何 做 ? 
(d) 为 使 B>A 的 传输 经 过 R，Q 应 如 何 做 ? | 

2. 给 出 一 个 将 路 由 器 组 成 自治 系统 的 例子 , 使 从 A 点 到 了 B 点 的 最 少 跳 路 径 通 过 同一 个 AS 两 次 。 解 释 
BGP 此 时 该 如 何 做 。 | 

支 3. S A 为 因特网 中 的 自治 系统 的 数目 , D CEB) 为 AS 路 径 长 度 的 最 大 值 。 

(a) 分 别 给 出 也 为 log4 阶 和 VA 阶 时 的 连通 性 模型 。 
(b) 假设 每 个 AS 号 为 2 字 节 ， 每 个 网 络 号 为 4 字 节 ， 试 估计 一 个 BGP 代言 人 为 了 解 到 每 个 网 络 的 
AS 路 径 而 必须 接收 的 数据 量 。 将 答案 表示 为 A、D 和 网 络 数 六 的 表达 式 。 

4. 为 IPv6 提出 一 个 合理 超 位 数 运 行 的 方案 。 尤 其 是 提供 如 图 4-11 所 示 的 数据 报 ， 可 具有 额外 的 ID 字 
段 ， 使 之 可 多 于 128 位 ， 同 时 可 调整 各 个 字段 的 尺寸 。 你 可 以 假设 字段 按 字 节 边缘 划分 ， 且 InterfaceID 
是 64 位 (提示 : 可 认为 字段 只 有 在 异常 情况 下 才 会 以 最 大 空间 分 配 ) o WR InterfaceID 是 48 位 呢 ? 

5. 假设 P、Q 和 RR 是 网 络 服务 提供 商 ,， 各 自 的 CIDR 地 址 分 别 为 C1. 0. 0.0/8, C2. 0.0.0/8 和 C3. 0. 0. 0/8. 
每 个 提供 商 的 客户 最 初 接收 的 地 址 分 配 是 提供 商 地 址 的 一 个 子 集 。P 有 如 下 客户 : 

PA， 分配 地 址 C1. A3. 0. 0/16 
PB，, 分 配 地 址 C1. BO. 0. 0/12 
Q 有 如 下 客户 : 
QA， 分 配 地 址 C2. 0A. 10. 0/20 
QB， 分 配 地 址 C2. OB. 0. 0/16 
假设 没有 其 他 提供 商 和 客户 。 
(a) 给 出 P、Q RAIA, 假设 每 个 提供 商都 和 另外 两 个 提供 商 连 接 。 
O 现在 假设 P 连接 Q，Q 连接 R, 但 P 和 尺 不 直接 连接 。 给 出 PP 和 R 的 路 由 表 。 
Cc) 假设 除 现 有 链 路 外 ， 客 户 PA 需要 一 条 到 达 Q 的 直接 链 路 ， 且 QA 需要 一 条 到 达 P 的 直接 链 路 。 
给 出 P 和 Q 的 路 由 表 ， 忽 略 R。 

6. 上 一 道 题目 中 ， 假 设 每 个 提供 商都 与 另外 两 个 连接 。 假 设 客户 PA 转 到 提供 商 Q 且 客 户 QB 转 到 提供 
R R. MH CIDR 最 长 匹配 规则 给 出 路 由 表 ， 使 所 有 三 个 提供 商 允 许 PA 和 QB 交换 且 无 需 重 编号 。 

7. 假设 大 部 分 因特网 使 用 某 种 形式 的 地 理 编 址 ， 但 一 个 大 型 国际 组 织 拥 有 一 个 IP 网 络 地 址 且 在 自己 的 
链 路 中 路 由 内 部 流量 。 
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Ca) 解释 该 组 织 在 此 种 状况 下 输入 流量 路 由 的 低 效 性 。 

Cb) 解释 如 何 解决 输出 流量 问题 。 

Cc) 用 解决 问题 Cb) 的 方法 解决 输入 流量 ， 会 发 生 什 么 ? 

(d) 假设 该 组 织 将 各 地 办 公 室 的 地 址 更 换 为 分 离 的 地 理 地 址 ， 如 果 仍 需要 在 组 织 内 路 由 内 部 流量 的 
话 ， 他 们 的 内 部 路 由 体系 结构 必须 是 怎样 的 ? 

电话 系统 使 用 地 理 编 址 。 解 释 你 不 认为 这 是 理所当然 的 因特网 体系 结构 的 原因 。 

假设 一 个 小 ISP X 向 大 ISP A 付费 以 接 人 因特网 ， 同 时 从 另 一 个 ISP B 处 购买 了 备用 链 路 以 便 在 与 A 

的 链接 断 开 时 使 用 。 如 果 XX 通过 ISP A 学 习 到 通 往 一 些 前 缀 的 路 径 ， 需 要 将 这 些 路 径 通 知 B 吗 ? 为 

什么 ? | | r 

假设 站 点 A 是 多 连接 的 〈multihomed) ， 它 有 从 不 同 的 提供 商 P 和 AQ 到 因特网 的 两 个 连接 。 使 用 习题 

5 中 的 基于 提供 商 的 编 址 方法 ， 且 A 从 了 得 到 其 地 址 分 配 。Q 有 一 条 A 的 CIDR 最 长 匹配 路 由 记录 。 

(a) 描述 哪些 输入 流量 流入 A-Q 连接 。 考 虑 Q 使 用 BGP 将 A 和 不 将 A 向 全 网 通知 的 情况 。 

Cb) 如 果 P-A 链 路 出 现 故 障 ， 为 使 所 有 输入 流量 都 能 经 Q 到 达 A，Q 必须 向 A 至 少 通知 哪些 路 由 ? 

(o) 如 果 A 使 用 这 两 条 链 路 来 传送 输出 流量 ， 必 须 克 服 哪些 问题 ? 


. 假设 在 一 个 大 型 组 织 A 中 的 网 络 N， 除 了 现 有 的 经 A 的 连接 外 ， 还 有 它 自 己 的 到 因特网 服务 提供 商 


的 直接 连接 。 设 R1 为 连接 N 到 其 提供 商 的 路 由 器 ，R2 为 连接 N 到 A 的 其 余部 分 的 路 由 器 。 

(a) 假设 N 仍 是 A 的 子 网 ，R1 和 R2 应 如 何 配置 ? 对 于 N 使 用 它 自己 的 独立 连接 ， 仍 将 存在 什么 限 
制 ? A 不 能 使 用 N 的 连接 吗 ? 说 明 你 的 配置 ， 包 括 R1 和 R2 应 通知 什么 ， 以 及 使 用 哪些 路 径 进 
行 通知 。 假 设 可 使 用 像 BGP 这 样 的 机 制 。 | 

(b) 现在 假设 NAA EAS, RE (Ca) 中 得 出 的 答案 将 如 何 变化 ? 

(c) 描述 当 A 自己 的 链 路 发 生 故 障 后 ， 人 允许 它 使 用 N 的 链 路 的 一 台 路 由 器 配置 。 

路 由 器 如 何 确定 接收 到 的 IP 分 组 为 多 播 ? 针对 IPv4 和 IPv6 给 出 答案 。 

假设 一 个 多 播 组 希望 被 一 个 特定 多 播 域 隐藏 ; 那么 一 个 被 指派 到 该 组 的 IP 多 播 地 址 如 何 能 够 在 没有 

与 其 他 多 播 域 协商 的 情况 下 避免 冲突 ? | | 

在 何 种 情况 下 一 台 非 路 由 器 主机 在 以 太 网 上 可 以 从 未 加 入 的 多 播 组 接收 IP 多 播 分 组 ? 

考虑 如 图 4-29 所 示 的 因特网 的 例子 ， 其 中 源 主机 D 和 下 向 多 播 组 G 发 送 分 组 ， 除 3D 和 下 其 余 主机 

全 部 是 组 G 的 成 员 。 给 出 每 个 源 的 最 短路 径 多 播 树 。 





图 4-29 习题 15 的 示例 网 络 


206 GAG 





16. 考虑 如 图 4-30 所 示 的 因特网 的 例子 ， 其 中 源 主机 Sl 和 S2 向 多 播 组 G 发 送 分 组 ， 除 了 SI 和 S2 其 余 
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主机 全 部 是 组 G 的 成 员 。 给 出 每 个 源 的 最 短路 径 多 播 树 。 





图 4-30 习题 16 的 示例 网 络 


假设 主机 A 正在 向 一 个 多 播 组 发 送 消息 。 接 收 方 是 以 A 为 根 的 树 上 的 叶子 节点 ， 树 的 深度 为 N， 是 

每 个 非 叶子 节点 有 个 子女 ， 因 此 有 RN SEU. 

(a) 如 果 A 向 所 有 接收 方 发 送 一 条 多 播 消息 ， 会 涉及 多 少 条 独立 的 链 路 传输 ? 

b) 如 果 A 向 每 个 接收 方 发 送 单 播 消息 ， 会 涉及 多 少 条 独立 的 链 路 传输 ? 

(c) 假设 A 向 所 有 接收 方 发 送 ， 但 是 有 一 些 消息 丢失 且 需 要 重 传 。 仅 考虑 链 路 重 传 方面 ， 向 接收 方 
哪 部 分 的 单 播 重 传 等 价 于 向 所 有 接收 方 的 一 次 多 播 重 传 ? Pua 

现 有 的 因特网 在 很 大 程度 上 依赖 于 参与 者 成 为 高 素质 的 “网 络 公民 ”一 一 共同 坚持 操作 所 有 甚至 更 

多 的 标准 协议 。 

(a) 在 PIM-SM 方案 中 ， 谁 决定 什么 时 候 创 建 特 定 源 的 树 ? 这 在 什么 情况 下 出 现 问题 ? 

(b) 在 PIM-SMM 方案 中 ， 谁 次 定 什么 时 候 创 建 特定 源 的 树 ?” 为 什么 可 以 假设 不 存在 这 个 问题 ? 

Ca) 画 一 个 互联 网 的 例子 ， 在 该 网 络 中 从 一 个 源 路 由 器 到 组 成 员 路 由 器 的 BIDIR-PIM 路 由 的 长 度 比 
PIM-SM 特定 源 的 路 由 要 长 。 

(b) 画 一 个 两 种 路 由 相同 的 例子 。 

判断 以 下 IPv6 地 址 的 表示 是 和 否 正确 。 

(a) ::0F53:6382: ABO0:67DB: BB27:7332, 

Cb) 7803:42F2:::88EC:D4BA:B75D:11CD, 

(c) ::4BA8:95CC: ;DB97:4EAB, 

(d) 74DC: :02BA。 

(e) ::00FF:128. 112. 92.116, 

MPLS 标签 一 般 长 20 位 。 请 解释 当 MPLS 用 于 基于 目的 地 址 的 转发 时 ， 为 什么 这 个 长 度 能 提供 足够 

的 标签 。 


. MPLS 有 时 被 认为 改进 了 路 由 器 的 性 能 。 请 解释 为 什么 ， 以 及 为 什么 实际 中 可 能 不 是 这 样 ， 
. 假设 每 个 MPLS 标签 占 32 位 ， 并 作为 图 4 20b 中 曾 使 用 过 的 “ 瘦 ” 首 部 添加 到 一 个 分 组 中 。 


(a) 通过 隧道 传送 分 组 时 ， 如 果 使 用 4. 3. 3 节 描 述 的 MPLS 技术 ， 需 要 多 少 附加 字 节 ? 


24. 
Zo: 


26. 
27. 
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(b) 通过 隧道 传送 分 组 时 ， 如 果 使 用 3. 2.9 节 描 述 的 附加 全 首部 ， 最 少 需要 多 少 附加 字 节 ? 

O 当 平均 分 组 长 度 为 300 字 节 和 64 字 节 时 ， 分 别 计算 如 上 两 种 方法 的 带宽 利用 率 。 带 宽 利 用 率 定 
义 为 〈 传 送 的 有 效 载荷 字 节 数 ) 二 (传送 的 总 字 节 数 )。 

RFC791 RT 下 协议， 并 包括 源 路 由 的 两 个 选项 。 请 说 出 与 使 用 MPLS 的 显 式 路 由 相 比 , 使 用 IP 

源 路 由 选项 的 三 个 缺点 。( 提 示 : 包括 选项 的 IP 首部 可 能 最 多 15 PEK.) | 

DHCP 允许 计算 机 在 任意 时 刻 移动 到 新 的 子 网 时 请 求 一 个 新 的 IP 地 址 。 为 什么 这 样 无 法 满足 移动 主 

机 的 通信 需求 ? | 

请 求 将 传送 到 一 个 移动 节点 的 流量 先 发 送 给 本 地 代理 的 主要 缺点 是 什么 ? | 

移动 IP 允许 本 地 代理 通知 相关 通信 节点 一 个 移动 节点 的 新 的 转交 地 址 。 如 何 利用 此 机 制 盗 取 流 量 ? 

如 何 将 之 用 于 执行 对 其 他 节点 的 一 次 洪 泛 流 量 攻击 ? 


第 5 音 | 
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问题 : 进程 间 如 何 通 


(= 


前 面 三 章 描述 了 可 用 于 把 多 台 计 算 机 连接 在 一 起 的 各 种 技术 ， 从 简单 的 以 太 网 和 无 线 
网 到 履 盖 全 球 的 互联 网 。 下 面 要 考虑 的 问题 是 从 这 种 主机 到 主机 的 分 组 传递 服务 转 回 进程 
到 进程 的 通信 信道 ， 这 正 是 网 络 体系 结构 中 传输 (transport) 层 的 任务 ， 由 于 它 支 持 在 终 
端 节点 上 运行 的 应 用 程序 之 间 的 通信 ， 因 此 传输 层 协 议 有 时 也 称 为 端 到 端 (end-to-end) 
协议 。 
两 种 因素 促成 了 端 到 端 协议 的 形成 。 从 其 上 层 看 ， 需 要 使 用 传输 层 服 务 的 应 用 层 进 程 
有 一 些 特定 的 需求 。 下 面 列 出 了 上 层 协议 希望 传输 层 能 提供 的 一 些 常用 的 特性 : 
确保 消息 成 功 传输 。 | 
消息 按 序 传输 。 

。 最 多 传送 每 个 消息 的 一 个 副本 。 

。 文 持 任 意 大 的 消息 。 

。 文 持 发 送 方 与 接收 方 之 间 的 同步 。 

。 允许 接收 方 对 发 送 方 进 行 流 量 控制 。 

。 支 持 每 台 主机 上 的 多 个 应 用 进程。 | 

注意 ， 这 个 列表 并 没有 包括 应 用 进程 要 求 网 络 提供 的 全 部 功能 。 例 如 ， 没 有 包括 诺 如 
刁 份 验证 或 加 密 这 类 通常 由 传输 层 之 上 的 协议 来 提供 的 安全 特性 。 
从 其 下 层 看 ， 传 输 层 协议 赖 以 运行 的 下 层 网 络 所 能 提供 的 服务 能 力 有 某 些 限制 。 其 中 
比较 典型 的 是 下 层 网 络 可 能 会 ; 

。 SFE. 

。 使 消息 乱 序 。 

。 传送 一 个 消息 的 多 个 副本 。 

。 限制 消息 的 大 小 。 

。 在 任意 长 延迟 后 才 发 送 消息 。 

这 样 的 网 络 称 为 是 提供 尽力 而 为 〈best-effort) 的 服务 ， 因 特 网 就 是 这 种 网 络 的 一 个 
实例 。 

因此 ， 间 题 的 关键 是 设计 出 各 种 算法 ， 把 下 层 网 络 低 于 要 求 的 特性 转变 成 应 用 程序 所 
需 的 高 级 服务 。 不 同 的 传输 层 协 议 应 用 这 些 算 法 的 不 同 组 合 。 本 章 在 以 下 四 种 有 代表 性 的 
服务 环境 中 考察 这 些 算 法 : 简单 异步 多 路 分 解 服务 、 可 靠 字 节 流 服务 、 请 求 /应 答 服务 和 
用 于 实时 应 用 的 服务 。 a | 

XFS BE oD SF ARH A RS. 分 别 以 因特网 中 的 用 户 数 据 报 协议 (User Data- 
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gram Protocol, UDP) 和 传输 控制 协议 (Transmission Control Protocol, TCP) 为 例 来 
fA AE SPRL On THE PR HRS. IR / RVI. BAO ETE EN 
(Remote Procedure Call, RPC) 服务 中 的 作用 及 其 特征 ， 讨论 将 围绕 着 两 个 广泛 使 用 的 
RPC 协议 SunRPC 和 DCE-RPC 来 展开 。 
实时 应 用 对 传输 层 有 特定 的 需求 ， 例如 要 求 音 频 或 视频 能 够 及 时 播放 ， 我 们 将 关注 该 
类 应 用 对 传输 层 协议 的 要 求 ， 以 及 广泛 用 于 该 目的 的 协议 ,实时 传输 协议 (Real-time 
Transport Protocol, RTP). | 


pa oz, Be 分 解 ( UDP ) 
可 能 的 最 简单 的 传输 协议 是 把 下 层 网 络 的 主机 到 主机 的 传递 服务 扩展 到 进程 到 进程 


的 通信 服务 。 任 何 主机 上 都 可 能 运行 多 个 进程 ， 因 此 该 协议 至 少 需要 增加 一 个 多 路 分 解 
功能 ， 以 便 每 台 主机 上 的 多 个 进程 能 够 共享 网 络 。 除 此 之 外 ， 传 输 协议 不 再 向 下 层 网 络 
提供 的 尽力 而 为 服务 增加 任何 其 他 功能 。 因 特 网 提供 的 用 户 数据 报 协议 就 是 这 样 的 传输 
协议 。 

在 这 样 的 协议 中 ， 唯 一 值得 注意 的 问题 是 用 来 标识 目的 进程 的 地 址 形式 。 虽 然 可 以 用 
操作 系统 赋予 的 进程 标识 符 〈pid) 使 进程 之 间 直 接 相 互 识别 ， 但 这 样 的 方法 只 可 能 在 一 
个 封闭 的 分 布 式 系统 中 有 实际 价值 ， 即 在 所 有 主机 上 只 运行 一 个 操作 系统 ， 这 个 唯一 的 操 
作 系 统 给 每 个 进程 分 配 唯 一 的 标识 符 。 一 种 更 通用 的 也 是 被 UDP 采用 的 方法 ， 是 使 用 一 
个 称 为 端口 (port) 的 抽象 定位 器 ， 使 进程 之 间 能 人 够 间接 (indirectly) 相互 识别 。 其 基本 
思想 是 ， 源 进程 向 端口 发 送 消息 而 目的 进程 从 端口 接收 消息 。 

实现 该 多 路 分 解 功能 的 端 到 端 协议 的 首部 通常 包 
含 消息 的 发 送 方 〈 源 ) 和 接收 方 (目的 ) 的 标识 符 
(端口 )。 例 如 ， 图 5-1 给 出 了 UDP 的 首部 结构 。 注 
意 ，UDP 端口 字段 只 有 16 位 。 这 意味 着 最 多 有 64K 
个 可 能 的 端口 ， 显 然 不 够 用 来 标识 因特网 上 所 有 主机 
的 全 部 进程 。 幸 运 的 是 ， 端 口 只 对 单 台 主 机 有 效 ， 而 
不 是 在 整个 因特网 上 都 有 效 。 也 就 是 说 ， 进 程 实际 是 
通过 特定 主机 上 的 某 个 端口 〈 即 一 个 〈 主 机， 端口 图 5-1 UDP 首部 格式 
对 ) 标识 的 。 实 际 上 ， 这 个 (主机 ， 端 口 、 对 构成 了 UDP 协议 的 多 路 分 解密 钥 。 

接 下 来 的 问题 是 一 个 发 送 进程 如 何 知 道 接收 进程 的 端口 号 。 典 型 情况 下 ， 一 个 客户 进 
程 发 起 与 服务 器 进程 的 消息 交换 。 一 旦 客户 进程 建立 了 与 服务 器 进程 的 联系 ， 服 务 器 就 能 
获得 客户 进程 的 端口 号 (包含 在 消息 首部 的 SrcPort 〈 源 端口 ) 字段 中 ) ， 并 能 对 客户 进程 
进行 应 答 。 因 此 ， 真 正 的 难题 是 客户 进程 如 何 首 先知 道 服务 器 进程 的 端口 号 。 通 常 的 做 法 
是 ， 服 务 器 进程 在 一 个 知名 端口 (well-Kknown port) 接收 消息 。 就 是 说 ， BES ARH at WE E 
在 某 个 固定 的 广 为 公 布 的 端口 接收 消息 ， 就 像 美国 紧急 电话 服务 可 以 用 众所周知 的 号 码 
911 一 样 。 例 如 ， 在 因特网 上 ， 域 名 服务 器 CONS) 总 是 在 端口 53 接收 消息 ， 电 子 邮件 服 
务 在 端口 25 监听 消息 ，UNIX 上 的 talk 程序 在 端口 517 接收 消息 ， 等 等 。 这 种 服务 与 端 
口 的 对 照 表 定期 在 RFC 上 公布 ， 并 可 以 在 大 多 数 UNIX 系统 的 /etc/services 文件 中 得 到 。 
有 时 ， 知 名 端口 仅仅 是 通信 的 起 点 ,客户 端 和 服务 器 用 这 个 端口 达成 一 致 ， 并 在 另 一 个 端 
口 进行 后 续 的 通信 ， 以 便 释放 知名 端口 给 其 他 客户 进程 使 用 。 








另 一 种 策略 是 推广 这 种 思想 ， 知 名 端口 具有 一 个 ， 就 是 端口 映射 (port mapper) 服务 
接收 消息 的 端口 。 客 户 端 先 给 端口 映射 服务 程序 的 知名 端口 发 送 消息 ， 询 问 “ 无 论 什么 ” 
服务 时 应 使 用 的 端口 ， 而 端口 映射 服务 程序 返回 相应 的 端口 。 这 种 策略 使 更 改 各 种 服务 的 
端口 和 对 每 台 主 机 使 用 不 同 端口 提供 相同 的 服务 变 得 容易 。 

如 上 所 述 ， 端 口 纯粹 是 一 种 抽象 。 实 际 上 ， 
它 的 具体 实现 在 不 同 的 计算 机 系统 中 是 不 同 的 ， 
或 者 更 准确 地 说 ， 在 不 同 的 操作 系统 中 是 不 同 
的 。 例 如 ， 第 1 章 描 述 的 套 接 字 API 是 端口 的 一 
种 实现 。 一 般 来 说 ， 端 口 是 由 一 个 消息 队列 实现 
的 ， 如 图 5-2 所 示 。 当 消息 到 达 时 ， 协 议 〈 例 如 
UDP) 会 把 该 消息 加 到 队列 的 末尾 。 如 采 队 列 满 
T, HARER., UDP 中 没有 让 发 送 方 减 慢 发 送 
速度 的 流量 控制 机 制 。 当 应 用 程序 进程 需要 接收 
消息 时 ， 就 从 队列 前 端 移出 一 条 消息 。 如 果 队 列 
是 空 的， 进程 就 阻塞 直到 有 消息 可 用 。 

最 后 ， 昌 然 UDP 没有 实现 流量 控制 或 可 靠 
的 /有 序 的 传输 ， 但 它 除了 把 消息 多 路 分 解 给 某 
个 应 用 进程 外 ， 还 提供 了 另 一 种 功能 一 一 通过 使 
用 校 验 和 来 确保 消息 的 正确 性 (UDP 校 验 和 在 IPv4 中 是 可 选项 ,但 在 IPv6 中 是 强制 性 
的 ) 。 基 本 的 UDP 校 验 和 算法 与 在 2. 4. 2 节 定 义 的 IP 协议 校 验 和 算法 一 致 一 一 即将 一 组 
16 位 字 以 补 码 形式 相 加 ， 然 后 再 对 相 加 和 取 补 。 但 用 于 校 验 的 输入 数据 有 点 不 直观 。 
| UDP 计算 UDP 首部 、 消 息 体 内 容 和 某 些 场合 称 为 伪 首 部 Cpseudoheader) 的 校 验 和 。 
伪 首 部 由 IP 首部 的 三 个 字段 (协议 号 、 源 IP 地 址 和 目的 卫 地 址 ) 加 上 UDP 长 度 字 有 段 组 
成 (UDP 长 度 字段 在 校 验 和 计算 中 被 使 用 两 次 ) 。 用 伪 首 部 的 原因 是 验证 消息 已 在 正确 的 
两 个 端点 之 间 传输 。 例 如 ， 如 果 在 分 组 的 传递 过 程 中 修改 了 它 的 目的 IP 地 址 ， 就 会 造成 
分 组 被 错误 传输 ， 这 种 情况 会 被 UDP 校 验 和 检查 出 来 。 | | 





Al 5-2 UDP 消息 队列 





52 可 靠 字 节 流 (TCP)S 


与 UDP 这 样 简单 的 多 路 分 解 协议 相 比 ， 一 种 更 复杂 的 传输 协议 提供 了 可 靠 的 、 面 向 
连接 的 字 节 流 服务 。 事 实证 明 ， 这 种 协议 对 于 众多 的 各 类 应 用 程序 是 有 用 的 ， 因 为 它 使 应 
用 程序 从 数据 丢失 和 失 序 的 顾虑 中 解脱 出 来 。 因 特 网 的 传输 控制 协议 是 这 类 协议 中 使 用 最 
广泛 的 协议 ， 也 是 协调 性 最 精确 的 协议 。 因 此 ， 本 节 将 详细 讨论 TCP。 在 本 节 最 后 ， 我 们 
还 指出 并 讨论 了 其 他 的 设计 选择 。 

按照 本 章 开始 的 问题 中 给 出 的 传输 协议 的 特性 ，TCP 能 保证 可 靠 的 、 有 序 的 字 节 流 
传输 。 它 是 全 双 工 协议 ， 也 就 是 说 每 个 TCP 连接 支持 一 对 字 节 流 ， 每 个 方向 一 个 字 节 流 。 
对 这 两 个 字 节 流 中 的 每 个 流 ， 它 还 包含 流量 控制 机 制 ， 允 许 接收 方 限制 发 送 方 在 给 定时 间 
内 发 送 的 数据 量 。 另 外 ， 像 UDP 一 样 ，TCP 支持 多 路 分 解 机 制 ， 允 许 任 何 主机 上 的 多 个 
应 用 程序 同时 与 它们 各 自 的 对 等 实体 进行 对 话 。 此 外 ，TCP 也 实现 了 一 个 高 度 协调 (而 


5 BY 3 HX | | 21] 


且 仍 在 发 展 ) 的 拥塞 控制 机 制 。 这 种 机 制 的 思想 是 控制 TCP 发 送 方 发 送 数据 的 速度 ， 其 
目的 不 是 为 了 防止 发 送 方 发 出 的 数据 超出 接收 方 的 接收 能 力 ， 而 是 防止 发 送 方 发 出 的 数据 
超出 网 络 的 容量 。 关 于 TCP 拥塞 控制 机 制 的 说 明 将 在 第 6 章 给 出 ， 那 里 我 们 将 在 如 何 公 
平分 配 网 络 资源 这 一 更 大 的 范围 内 讨论 它 。 

结论 ”由 于 很 多 人 混淆 了 拥塞 控制 与 流量 控制 ， 所 以 在 此 我 们 再 次 说 明 它 们 之 间 

的 区 别 。 流 量 控制 Clow control) 防止 发 送 方 发 出 的 数据 超出 接收 方 的 接收 能 

力 ， 拥 塞 控 制 (congestion control) 防止 过 多 的 数据 注入 网 络 而 造成 交换 机 或 链 

路 超载 。 因 此 ， 流 量 控制 是 一 个 端 到 端的 问题 ， 而 拥塞 控制 是 主机 如 何 与 网 络 交 

互 的 问题 。 


5.2.1 站 到 端 问题 


TCP 的 核心 是 滑动 窗口 算法 。 虽 然 这 与 2.5. 2 节 介 绍 的 基本 算法 相同 ， 但 因为 TCP 
是 在 整个 因特网 上 而 不 是 在 一 个 点 到 点 链 路 上 运行 ， 所 以 它们 存在 着 很 多 重要 的 差别 。 本 
节 指出 这 些 差别 ， 并 解释 这 些 差别 怎样 合 TCP 复杂 化 。 下 面 几 节 将 描述 TCP 如 何 处 理 这 
些 复杂 情况 。 

首先 ， 尽 管 2. 5. 2 节 描 述 的 滑动 窗口 算法 运行 在 总 是 连接 两 台 计 算 机 的 一 条 物理 链 路 
E, ETO 仍然 支持 运行 在 因特网 中 任意 两 台 计 算 机 上 的 进程 之 间 的 逻辑 连接 。 这 就 是 
说 ，TCP 需要 有 明确 的 连接 建立 阶段 ， 使 连接 的 双方 同意 相互 交换 数据 。 这 个 不 同 点 类 
似 于 需要 拨号 到 对 方 ， 但 是 没有 专用 电话 线路 。TCP 也 有 一 个 明确 的 断 开 连 接 阶 段 。 在 
连接 建立 阶段 发 生 的 事件 之 一 ， 是 双方 建立 某 种 共享 状态 使 滑动 窗口 算法 开始 运行 。 连 接 
断 开 阶段 是 必要 的 ， 因 为 只 有 这 样 双方 主机 才 知 道 可 以 释放 这 种 状态 。 

其 次 ， 尽 管 总 是 连接 两 台 相同 计算 机 的 一 条 物理 链 路 具有 固定 的 往返 时 间 (RTT), 
但 TCP 连接 很 可 能 具有 差异 很 大 的 往返 时 延 。 例 如 ， 在 旧金山 的 一 台 主 机 和 在 波士顿 的 
一 台 主 机 之 间 有 一 个 TCP 连接 ， 它 们 相隔 数 千 公 里 ，RTT 的 值 可 能 是 100ms， 而 在 同一 
个 房间 的 两 台 主机 之 间 也 可 能 有 一 个 TCP 连接 ， 它们 只 相距 几米 ，RTT 的 值 可 能 只 有 
lms。 因 此 ， 同 样 的 TCP 协议 必须 支持 这 两 种 连接 。 更 糟糕 的 是 ， 旧 金山 和 波士顿 两 地 主 
机 之 间 的 TCP 连接 可 能 在 凌晨 3 点 时 的 RTT 值 是 100ms， 而 在 下 午 3 点 时 的 RTT 值 变 
成 500ms。 甚 至 一 个 TCP 连接 在 持续 几 分 钟 后 ，RTT 值 就 可 能 发 生变 化 。 这 对 滑动 窗口 
算法 而 言 ， 意 味 着 触发 重 传 的 超时 机 制 必须 具有 适应 性 (当然 ， 点 到 点 链 路 的 超时 值 必须 
是 可 以 设置 的 参数 ， 但 不 必 为 了 某 对 节点 而 调整 上 述 定 时 器 )。 

第 三 个 差别 是 分 组 通过 因特网 时 可 能 重 排序 ， 这 在 点 到 点 的 链 路 上 是 不 可 能 的 ， 因 为 
在 链 路 一 端 先 发 送 的 分 组 一 定 先 到 达 另 一 端 。 分 组 的 轻 度 失 序 不 会 引起 问题 ， 因 为 滑动 窗 
口算 法 能 用 序号 将 分 组 正确 地 重新 排序 。 真 正 的 问题 是 失 序 的 分 组 多 长 时 间 能 到 达 ， 换 名 
话说 ， 分 组 多 晚 才 到 达 目 的 地 。 最 坏 的 情况 下 ， 分 组 在 因特网 中 被 延迟 ， 直 到 IP 的 生存 
期 (TTL) 字段 过 期 ， 此 时 分 组 被 丢弃 〈 因 此 不 存在 分 组 迟到 的 危险 ) 。 已 知 IP 在 分 组 的 
TTL 过 期 后 就 会 丢弃 分 组 ，TCP 假设 每 个 分 组 有 一 个 最 大 的 生存 期 。 这 是 一 种 设计 选择 ， 
称 为 最 大 报 文 段 生 存 期 (Maximum Segment Lifetimne，MSL) ， 当 前 的 推荐 值 为 120s。 注 
意 ，IP 并 不 直接 强制 使 用 这 个 120s 的 值 ， 它 只 是 TCP 对 一 个 分 组 可 能 在 因特网 上 生存 多 
入 所 做 的 保守 估计 。 这 样 做 的 含义 很 明显 ， 就 是 TCP 不 得 不 为 很 早 以 前 发 出 的 分 组 突然 
出 现在 接收 方 而 做 准备 ， 因 为 这 种 分 组 可 能 会 搅乱 滑动 窗口 算法 。 
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第 四 ， 连 接 到 点 到 点 链 路 的 计算 机 通常 都 支持 这 种 链 路 。 例 如 ， 如 采 一 个 链 路 的 延迟 
带宽 积 为 KB， 就 意味 着 窗口 的 大 小 在 给 定 的 时 间 内 允许 最 大 8KB 的 数据 不 被 确认 ， 这 
样 可 以 认为 链 路 任 一 端的 计算 机 能 缓存 至 多 8KB 数据 。 不 这 样 设 计 系 统 是 媚 愉 的 。 另 一 
方面 ， 几 乎 任何 类 型 的 计算 机 都 能 连 到 因特网 上 ， 这 使 得 用 于 TCP 连接 的 资源 数量 变化 
很 大 ， 尤 其 是 考虑 到 任何 一 台 主 机 都 可 能 同时 支持 几 百 个 TCP 连接 。 这 意味 着 TCP 必须 
包含 一 种 机 制 ， 使 连接 的 每 一 端 用 它 “ 了 人 解 ” 男 一 端 有 什么 资源 (比如 多 少 缓冲 区 空间 ) 
用 于 连接 。 这 就 是 流量 控制 问题 。 

第 五 ， 因 为 一 个 直 连 链 路 的 发 送 方 不 能 以 超出 链 路 带宽 所 允许 的 速率 发 送 数 据 ， 而 且 
只 有 一 台 主 机 向 链 路 注 和 数据， 所 以 它 不 可 能 不 知道 链 路 拥塞 。 换 名 话说 ， 链 路 的 负载 情 
况 是 以 发 送 方 的 分 组 队列 形式 显现 的 。 相 比 之 下 ，TCP 连接 的 发 送 方 并 不 知道 经 过 什么 
链 路 传送 到 目的 地 。 例 如 ， 发 送 方 计算 机 可 能 直接 连 到 相对 较 快 的 以 太 网 ， 它 能 以 
100Mbps 的 速率 发 送 数据 ， 但 是 在 网 络 中 的 某 个 地 方 ， 必 须 通 过 一 段 1.5Mbps 的 T1 链 
路 。 而 且 更 糟糕 的 是 ， 从 很 多 数据 源 产 生 的 分 组 可 能 都 要 通过 这 段 低 速 网 络 链 路 。 这 就 会 
”导致 网 络 拥塞 问题 。 我 们 在 第 6 章 讨论 这 个 主题 。 

下 面 通过 对 比 用 于 提供 可 靠 / 有 序 传输 服务 的 TCP 方法 与 X. 25 网 络 使 用 的 方法 来 结 
束 端 到 端 问 题 的 讨论 。 在 TCP 中 ， 下层 的 IP 网 络 被 认为 是 不 可 靠 的 ， 而 且 会 使 传递 消息 
错 序 ，TCP 在 端 到 端的 基础 上 利用 滑动 窗口 算法 提供 可 靠 / 有 序 的 传送 。 相 比 之 下 ，X. 25 
网 络 在 跳 到 跳 的 基础 上 在 网 络 内 部 使 用 滑动 窗口 协议 。 对 这 种 方法 的 假设 是 ， 如 果 一 条 消 
息 在 沿 源 主机 到 目的 主机 路 径 上 的 每 对 节点 之 间 都 能 可 靠 而 有 序 地 传输 ， 那 么 端 到 端 服务 
也 能 保证 可 靠 / 有 序 的 传输 。 

后 面 这 种 方法 的 问题 在 于 ,一 系列 跳 到 跳 的 保证 不 一 定 能 又 加 为 端 到 端的 保证 。 首 
先 ， 如 果 一 个 异 构 的 链 路 〈 例 如 以 太 网 ) 加 在 路 径 的 末端 ， 那 么 无 法 保证 这 一 跳 能 维持 与 
其 他 跳 同 样 的 服务 。 其 次 ， 滑 动 窗口 协议 只 保证 一 个 消息 从 节点 A 到 节点 B 正确 传递 ， 
从 节点 B 到 节点 C 也 能 正确 传递 ， 但 它 不 能 保证 在 节点 B 本 身 不 出 错 。 例 如 ， 我 们 已 经 
知道 ， 网 络 节点 在 把 一 个 消息 从 输入 缓冲 区 传 到 输出 缓冲 区 时 有 可 能 会 出 现 错误 ,也 知道 
它们 有 时 改变 消息 的 顺序 。 正 是 由 于 这 些小 窗口 的 脆弱 性 ， 所 以 仍然 需要 提供 真正 的 端 到 
端 检测 以 保证 可 靠 / 有 序 的 服务 ， 即 使 系统 的 低层 已 实现 了 这 种 功能 。 

结论 ”本 节 讨 论 的 目的 在 于 阔 述 系统 设计 中 最 重要 的 原则 之 一 ， 即 端 到 端 理论 。 

简 而 言 之 ， 端 到 端 理论 说 明 一 种 功能 (在 我 们 的 例子 中 是 提供 可 靠 / 有 了 序 的 传递 ) 

不 应 该 在 系统 的 较 低层 提供 ， 除 非 能 在 低层 完全 正确 地 实现 。 因 此 ， 这 条 原则 有 

利于 TCP/IP 方 法 。 但 是 该 原则 并 不 是 绝对 的 ， 有 时 为 了 性 能 优化 的 需要 也 允许 

在 较 低层 提供 一 些 不 完全 的 功能 。 这 就 是 为 什么 在 跳 到 跳 基础 上 进行 差错 检测 

(如 CRO) 的 原因 ， 检 测 并重 传 经 过 一 跳 的 单个 损坏 的 分 组 要 优 于 端 到 端 重 传 整 

个 文件 。 


5.2.2 报 文 段 格式 


TCP 是 面向 字 节 的 协议 ， 这 就 是 说 发 送 方向 一 个 TCP 连接 写 和 人 字 节 ， 接 收 方 从 这 个 
TCP 连接 读 出 字 节 。 虽 然 用 “ 字 节 流 ” 描 述 TCP 提供 给 应 用 进程 的 服务 ， 但 是 TCP 本 身 


并 不 在 因特网 上 传送 单个 字 节 。 实 际 上 ， 在 源 主机 上 的 TCP 收集 发 送 进程 交付 的 字 节 ， 
存 到 缓冲 区 中 ， 积 累 到 足够 的 数量 ,将 其 一 起 放 入 一 个 大 小 适宜 的 分 组 ， 再 发 送 给 目的 主 
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机 上 的 对 等 实体 。 目 的 主机 上 的 TCP 把 这 个 分 组 的 内 容 存 人 接收 缓冲 区 ， 接 收 进 程 在 空 
ce eee ia ee 为 简单 起 见 ， 只 显示 了 一 个 方向 





传输 报 文 段 
图 5-3 TCP 字 节 流 
图 5-3 中 ， 由 于 TCP 对 等 实体 之 间 交 换 的 每 个 分 组 都 携带 一 段 字 节 流 ， 所 以 将 这 些 


分 组 称 为 报 文 段 《segment) 。 每 个 TCP 报 文 段 包含 如 图 5-4 所 示 的 首部 。 图 中 绝 大 多 数 
字段 的 相关 内 容 将 在 本 节 说 明 ， 现 在 简单 地 介绍 一 下 ， 


te ne 


首部 


选项 ( 可 变 长 ) 





图 5-4 TCP 首部 格式 


与 UDP 首部 一 样 ，SrcPort 和 DstPort 字段 分 别 表示 源 端口 和 目的 端口 。 这 两 个 字段 
加 上 源 IP 地 址 和 目的 IP 地 址 ， 组 合成 每 个 TCP 连接 的 唯一 标识 。 也 就 是 说 ，TCP 的 多 
路 分 解密 钥 由 四 元 组 给 出 ， 

(SrcPort, SrcIPAddr, DstPort, DstIPAddr> | 

注意 ， 因 为 TCP 连接 有 始 有 终 ， 所 以 有 可 能 在 某 一 对 端口 间 建 立 了 一 个 连接 ， 并 用 

它 发 送 和 接收 数据 ， 然后 关闭 。 接 着 在 一 段 时 间 后 ， 第 二 个 连接 又 使 用 同一 对 端口 。 有 时 
把 这 种 情况 称 为 相同 连接 的 两 个 不 同 实例 (incarnation)。 

Acknowledgment (确认 号 ) SequenceNum (F5) 和 Aivars dW ados (接收 窗 
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口 ) 字段 都 在 TCP 的 滑动 窗口 算法 中 使 用 。 因 为 TCP 是 面向 字 节 的 协议 ， 所 以 数据 的 每 
个 字 节 部 有 序号 ，SequenceNum 字段 包含 报 文 段 携带 数据 的 第 一 个 字 节 的 序号 ，Ac- 
knowledgment 和 AdvertisedWindow 字段 携带 反方 向 数据 的 信息 。 为 了 简化 讨论 ， 我 们 忽 
略 数据 可 以 双向 流动 的 事实 ， 只 关心 有 特定 SequenceNum 值 的 数据 向 一 个 方向 流动 ， 而 
Acknowledgment 和 AdvertisedWindow 向 相反 方向 流动 ， 如 图 5-5 所 示 。 这 三 个 字段 将 在 
5. 2. 4 市 中 更 详细 地 描述 。 

数据 (序号 ) 


mr 


确认 号 + 接收 窗口 | 
图 5-5 TCP 过程 的 简单 描述 (只 考虑 单 向 )， 数 据 流 在 一 个 方向 而 确认 在 相反 方向 


6 比特 的 Flags (标志 )〉 字段 用 来 在 TCP 对 等 实体 间 传 递 控 制 信息 。 可 能 的 标志 位 有 
SYN, FIN, RESET, PUSH, URG 和 ACK, SYN 和 FIN 标志 分 别 在 建立 和 终止 TCP 
连接 时 使 用 。 它 们 的 用 法 在 5. 2.3 节 描 述 。ACK 标志 在 每 次 Acknowledgment 字段 有 效 
时 设置 ， 意 指 接收 方 应 对 Acknowledgment 字段 加 以 注意 。URG MREBRKAAR MRA 
含 紧急 数据 。 当 这 个 标志 被 置 位 时 ，UrgPtr (紧急 数据 指针 )〉 字段 指明 本 报 文 段 的 非 紧 急 
数据 从 什么 地 方 开 始 。 紧 急 数 据 包 含 在 报 文 段 段 体 的 前 部 ， 直 到 UrgPtr 值 所 指 的 字 市 数 
为 止 。PUSH 标志 说 明 发 送 方 调用 了 push 操作 ， 这 向 TCP 的 接收 方 表明 它 应 该 把 这 个 事 
实 通知 给 接收 进程 。 我 们 将 在 5. 2.7 节 对 后 两 个 特性 进行 更 多 的 讨论 。 最 后 ，RESET 标 
志 说 明 接 收 方 已 经 出 现 混乱 ， 例 如， 因为 它 收 到 了 并 不 希望 收 到 的 报 文 跋 ， 所 以 它 想 要 终 
止 连接 。 

最 后 ，CheckSum ( 校 验 和 ) 字段 与 UDP 中 的 用 法 完全 相同 ， 它 是 通过 计算 整个 
TCP 首部 、TCP 数据 以 及 由 IP 首部 的 源 地 址 、 目 的 地 址 和 长 度 字段 构成 的 伪 首 部 得 到 
的 。 在 IPv4 和 IPv6 F, TCP 都 要 求 有 校 验 和 字段 。 而 且 ， 由 于 TCP 首部 的 长 度 是 可 变 
的 《在 必 选 项 之 后 紧 跟 可 选项 )， 所 以 在 其 首部 中 包含 一 个 HdrLen (首部 长 度 ) 字段 ， 该 
字段 以 32 位 字 为 单位 给 出 首部 的 长 度 。 该 字段 也 称 为 Offset MBE) 字段 ， 因 为 可 以 
用 它 衡量 从 分 组 的 开始 位 置 到 数据 开始 位 置 的 偏 移 量 。 


5.2.3 连接 建立 与 终止 

一 个 TCP 连接 从 客户 端 〈 呼 叫 方 ) 向 服务 器 (被 呼叫 方 ) 执行 一 个 主动 打开 操作 开始 . 
假设 服务 器 事先 已 经 执行 了 被 动 打开 操作 ， 那 么 双方 就 交换 建立 连接 的 消息 (回顾 第 1 章 ， 
想 要 建立 连接 的 一 方 执行 主动 打开 操作 ， 而 接受 连接 的 一 方 执行 被 动 打开 操作 )。 只 有 在 连 
接 建立 阶段 完成 以 后 ， 双 方才 开始 发 送 数据 。 同 样 ， 当 其 中 一 方 发 送 完 数据 ， 就 会 关闭 一 个 
方向 的 连接 ， 这 就 使 TCP 开始 一 轮 终 止 连接 的 消息 。 注 意 ， 尽 管 连接 的 建立 是 一 个 非 对 称 
的 活动 一方 执行 被 动 打 开 而 另 一 方 执行 主动 打开 )， 但 是 连接 的 断 开 则 是 对 称 的 活动 每 
一 方 必须 独立 地 关闭 连接 )9 。 因 此 ， 有 可 能 一 方 已 经 完成 了 关闭 连接 ， 意 味 着 它 不 再 发 送 


日 、 更 准确 地 说 ， 连 接 建立 实际 上 是 对 称 的 ， 每 一 方 都 试图 在 同一 时 间 打开 连接 ， 但 通常 情况 下 ， 一 方 是 主动 打开 ， 
而 为 一 方 则 是 被 动 打开 。 | | 
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数据 ， 但 是 另 一 方 却 仍 保持 双向 连接 的 另 一 半 为 打开 状态 并 且 继 续 发 送 数据 。 
1. 三 次 握手 p 
TCP 使 用 的 建立 和 终止 连接 的 算法 称 为 三 次 握手 (three-way handshake), HTH 
描述 基本 算法 ， 然 后 说 明 TCP 如 何 使 用 它 。 三 次 yaang 


| es 参 被 动 参与 方 
握手 是 指 客户 端 和 服务 器 之 间 要 交换 三 次 消息 ， 如 CE) (服务 器 ) 
图 5-6 中 的 时 间 线 所 示 。 ~Y, ee 


算法 的 思想 是 双方 需要 商定 一 些 参数 ， 在 打开 
一 个 TCP 连接 的 时 候 ， 参 数 就 是 双方 打算 为 各 自 
的 字 节 流 使 用 的 开始 序号 。 通 常 ， 参 数 可 以 是 每 一 
方 硕 望 另 一 方 了 解 的 任何 情况 。 Be. BP CE 
动 参与 方 ) 发 送 一 个 报 文 段 给 服务 髓 (被动 参与 
方 )， 声 明 它 将 使 用 的 初始 序号 (Falgs=SYN, Se | 
quenceNum 一 Z) 。 服 务 厦 用 一 个 报 文 段 啊 应 ， 确 认 图 5-6 三 次 握手 算法 的 时 间 线 
客户 端的 序号 (Flags 一 ACK，Ack 二 zx 十 1)， 同 时 声明 自己 的 初始 序号 (Flags=SYN,. 
SequenceNum 一 y)。 也 就 是 说 ， 第 二 个 报 文 段 的 Flags 字段 的 SYN 和 ACK 位 被 置 位 。 最 
后 ,客户 端 用 第 三 个 报 文 段 响应 ， 确认 服务 器 的 序号 (Flags 一 ACK，Ack 一 y 十 1)。 每 一 
端的 确认 序号 比 发 送 来 的 序号 大 1 的 原因 是 Acknowledgment 字段 实际 指出 “希望 接收 的 
下 一 个 序号 ”， 从 而 隐 含 地 确认 前 面 所 有 序号 。 前 两 个 报 文 段 都 使 用 计时 器 ， 虽 然 在 图 中 
的 时 间 线 上 没有 显示 ， 而 且 如 果 没 收 到 所 希望 的 应 答 ， 就 会 重 传 报 文 段 。 | 

你 也 许 会 问 ， 为 什么 在 连接 的 建立 阶段 客户 端 和 服务 器 必须 相互 交换 初始 序号 ?如 果 双 
方 只 从 已 知 的 序号 〈 比 如 0) 开始 会 比较 简单 。 实 际 上 ，TCP 规范 要 求 连接 的 每 一 方 随机 地 
选择 一 个 初始 序号 。 这 样 做 的 原因 是 防止 同一 连接 的 两 个 实例 过 快 地 重复 使 用 同一 个 序号 ， 
也 就 是 说 ， 仍旧 有 可 能 出 现 以 前 的 连接 实例 的 一 个 数据 段 干扰 后 来 的 连接 实例 的 情况 。 

2. 状态 转换 图 F 7 

TCP 非常 复杂 ， 以 至 于 在 它 的 规范 中 包含 了 一 个 状态 转换 图 ， 如 图 5-7 所 示 。 这 个 图 
只 显示 打开 一 个 连接 时 的 状态 转换 (ESTABLISHED 的 上 面部 分 ) 和 关闭 一 个 连接 时 的 
状态 转换 (ESTABLISHED 的 下 面部 分 )。 当 连接 打开 后 执行 的 操作 〈 即 滑动 窗口 算法 的 
操作 ) 隐 含 在 ESTABLISHED REF. | 

TCP 的 状态 转换 图 相当 容易 理解 。 每 个 矩形 框 代表 一 个 状态 ，TCP 连接 的 每 一 端 都 
能 在 其 中 找到 自己 的 位 置 。 所 有 连接 开始 于 CLOSED 状态 。 随 着 连接 的 进行 ， 连 接 沿 绝 
线 从 一 个 状态 转移 到 男 一 个 状态 。 每 个 弧 线 用 事件 /操作 Cevent/action) 的 形式 标记 。 这 
样 ， 如 果 一 个 连接 处 于 LISTEN 状态 且 收 到 一 个 SYN RLE CGPA SYN 标志 置 位 的 报 文 
段 )， 那 么 连接 就 转换 到 SYN _ RCVD 状态 ， 并 且 执 行 用 ACK 十 SYN 报 文 段 应 答 的 操作 。 

注意 有 两 类 事件 会 触发 状态 转换 : 来 自 对 等 实体 的 一 个 报 文 段 ( 例 如 ， 从 LISTEN 到 
SYN _ RCVD 弧 线 上 的 事件 )， 或 本 地 应 用 进程 调用 一 个 TCP 操作 (例如 ， 从 CLOSED 
到 SYN SENT 弧 线 上 的 主动 打开 (active open) 事件 )。 换 句 话 说 ，TCP 的 状态 转换 图 
有 效 地 定义 了 其 对 等 实体 之 间 的 接口 和 服务 接口 的 语义 (semantic)， 如 1.3.1 节 中 的 定 
义 。 这 两 种 接口 的 语法 (syntax) 分 别 由 报 文 段 的 格式 〈 见 图 5-4) 和 一 些 应 用 程序 接口 
(1.4.1 节 中 有 一 个 例子 ) 给 出 。 
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图 5-7 TCP 状态 转换 图 


现在 跟踪 图 5-7 中 发 生 的 典型 转换 。 注 意 在 连接 的 每 一 端 ，TCP 会 执行 不 同 的 状态 转 
换 。 当 打开 一 个 连接 时 ， 服 务 器 先 执行 一 个 被 动 的 TCP 打开 操作 ， 这 使 TCP 转移 到 LIS- 
TEN 状态 。 在 一 段 时 间 后 ， 客 户 端 执行 主动 打开 操作 ， 向 服务 器 发 送 一 个 SYN 报 文 段 并 
ee ee 它 就 会 转移 到 SYN _ RCVD 状 
态 并 用 SYN 十 ACK 报 文 段 响应 。 这 个 报 文 段 到 达 客 户 端 后 ， 会 使 客户 端 转 移 到 ESTAB- 
LISHED Ee a ACK 报 文 段 。 当 这 个 ACK 报 文 段 到 达 后 ， 服 务 器 最 
后 转移 到 ESTABLISHED 状态 。 到 此 为 止 ， 我 们 跟踪 了 整个 三 次 握手 过 程 。 

关于 状态 转换 图 中 的 连接 建立 阶段 ， 有 三 种 情况 需要 注意 。 第 一 ， 如 果 客 户 端 到 服务 
器 的 ACK 报 文 段 〈 相 应 于 三 次 握手 的 第 三 次 ) 丢失 ， 连 接 仍 能 正常 工作 。 这 是 因为 客户 
端 已 经 处 于 ESTABLISHED 状态 ， 所 以 本 地 应 用 进程 可 以 开始 向 另 一 方 发 送 数据 。 每 个 
报 文 段 都 有 ACK 标志 置 位 ， 而 且 在 Acknowledgment 字段 中 包含 正确 的 数值 ， 所 以 当 第 
一 个 报 文 段 到 达 服 务 器 时 ， 它 就 会 转移 到 ESTABLISHED 状态 。 这 实际 上 是 TCP 的 重点 
之 一 ， 即 每 个 报 文 段 报 告发 送 方 希望 看 到 的 下 一 一 个 序号 ， 即 使 这 个 序号 与 以 前 的 一 个 或 多 
个 报 文 段 包含 的 序号 重复 。 | 

关于 状态 转换 图 需要 注意 的 第 二 种 情况 是 ， 只 要 本 地 进程 调用 一 个 TCP 的 发 送 
(send) 操作 ，LISTEN 状态 就 会 发 生 一 个 有 趣 的 状态 转换 。 也 就 是 说 ， 一 个 被 动 参与 方 
有 可 能 识别 出 连接 的 双方 〈 即 它 自己 和 想 与 它 连接 的 远 端 参与 方 )， 然 后 改变 为 主动 建立 
连接 。 据 我 们 所 知 ， 还 没有 应 用 进程 真正 利用 TCP 的 这 个 特性 。 

关于 转换 图 要 注意 的 最 后 一 种 情况 是 有 一 些 弧 线 在 图 中 没有 给 出 。 特 别 是 ， 一 方向 另 
一 方 发 送 报 文 段 的 同时 会 调用 一 个 超时 机 制 ， 如 果 没 有 出 现 期 望 的 响应 ， 最 终 会 导致 重 发 
这 个 报 文 段 。 这 些 重 传 没 有 在 状态 转换 图 中 给 出 。 如 果 在 几 次 重 发 后 仍 没 有 得 到 期 望 的 响 
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IM, TCP 就 会 放弃 重 传 并 回 到 CLOSED 状态 。 

现在 我 们 来 考虑 终止 一 个 连接 的 过 程 ， 这 里 需要 注意 的 一 件 重要 的 事情 是 ， 连 接 双 方 
”的 应 用 进程 必须 独立 地 关闭 自己 一 方 的 连接 。 如 果 仅 一 方 关闭 连接 ， 就 是 说 ， 它 不 再 发 送 
数据 ， 但 它 仍 能 接收 另 一 方 发 来 的 数据 。 这 就 使 状态 转换 图 复杂 化 ， 因 为 必须 考虑 到 双方 
可 能 同时 调用 关闭 (close) 操作， 也 可 能 其 中 一 个 先 调用 关闭 操作 ， 间 隔 一 段 时 间 后 另 一 
个 再 调用 关闭 操作 。 这 样 ， 连 接 的 任何 一 方 从 ESTABLISHED 状态 到 CLOSED 状态 有 三 
种 转换 组 合 : 

。 一 方 先 关闭 ， ESTABLISHED->FIN_ WAIT _1->FIN WAIT 2 一 TIME WAIT-> 

CLOSED, | 
。 另 一 方 先 关闭 ， ESTABLISHED+CLOSE_WAIT+LAST_ACK~CLOSED, 
。 双方 同时 关闭 : ESTABLISHED~FIN_WAIT_1~CLOSING>TIME_WAIT—> 
CLOSED, 

事实 上 ， 还 存在 第 四 种 极 少 出 现 的 到 达 CLOSED 状态 的 转换 顺序 ， 它 沿 着 从 FIN _ 
WAIT_1 到 TIME_ WAIT 的 弧 到 达 。 我 们 把 它 作 为 习题 ， 请 你 找 出 导致 第 四 种 可 能 性 
的 情况 组 合 。 

关于 上 断 开 连 接 需 要 考虑 的 主要 事情 是 ， 直 到 等 待 一 个 IP 数据 报 在 因特网 上 可 能 存活 
的 最 大 时 长 的 2 倍 时 间 «CBN 120s) 后 ， 连 接 才 能 从 TIME WAIT 状态 转移 到 CLOSED 状 
态 。 这 是 因为 当 连 接 的 本 地 一 方 已 经 发 出 一 个 ACK 报 文 段 响应 对 方 的 FIN 报 文 段 时 ， 它 
并 不 知道 这 个 ACK 报 文 段 是 否 成 功 传递 。 因 此 ， 男 一 方 可 能 又 重 传 一 个 FIN 报 文 段 ， 而 
这 第 二 个 FIN 报 文 段 可 能 在 网 络 中 被 延迟 。 如 果 人 允许 连接 直接 转移 到 CLOSED 状态 ， 那 
么 可 能 会 有 另 一 对 应 用 进程 打开 同一 个 连接 (即使 用 同一 对 端口 号 )， 而 前 面 连接 实例 中 
被 延迟 的 FIN 报 文 段 这 时 就 会 立即 使 后 来 的 连接 实例 终 上 上 。 


5.2.4 滑动 窗口 再 讨论 

现在 讨论 TCP 滑动 窗口 算法 的 变 体 ， 它 服务 于 这 样 几 个 目的 外 保证 数据 的 可 靠 传 
i; 加 确保 数据 的 有 序 传递 ;; @ 增 强 发 送 方 和 接收 方 之 间 的 流量 控制 。 在 这 三 种 功能 的 前 
两 种 情况 下 ，TCP 对 滑动 窗口 算法 的 使 用 与 我 们 在 2. 5. 2 节 看 到 的 相同 。TCP 与 以 前 算 
法 的 不 同 之 处 在 于 它 增加 了 流量 控制 功能 。 特 别 是 TCP 并 不 使 用 固定 尺寸 的 滑动 窗口 ， 
而 是 由 接收 方向 发 送 方 通知 (advertise) 它 的 窗口 尺寸 。 这 是 通过 使 用 TCP 首部 的 Ad- 
vertised Window 字段 完成 的 。 此 后 ， 发 送 方 在 任意 给 定时 刻 未 被 确认 的 字 厄 数 都 不 能 超过 
AdvertisedWindow 的 值 。 接 收 方 根据 分 配给 连接 的 用 于 缓存 数据 的 内 存 数量 ， 为 Adver- 
tisedWindow 选择 一 个 合适 的 值 。 其 思想 是 不 使 发 送 方 发 送 的 数据 超过 接收 方 缓冲 区 的 限 
度 。 下 面 更 深入 地 讨论 这 个 问题 。 

1. 可 靠 和 有 序 的 传输 

图 5-8 给 出 了 TCP 发 送 方 和 接收 方 如 何 相互 作用 以 实现 可 靠 和 有 序 的 传输 。 发 送 方 
的 TCP 维护 一 个 发 送 缓冲 区 ， 用 来 存储 那些 已 被 发 出 但 未 被 确认 的 数据 和 已 被 发 送 应 用 
程序 写 入 但 尚未 发 出 的 数据 。 在 接收 方 ，TCP 维护 一 个 接收 缓冲 区 ， 用 于 存放 到 达 的 错 
序数 据 和 按 正确 顺序 到 达 〈( 即 字 节 流 中 没有 丢失 前 面 的 字 节 ) 但 应 用 进程 无 暇 读 出 的 
数据 。 
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LastByteAcked ~ LastByteSent 


~ LastByteExpected § LastByteRevd 
a) 发 送 缓冲 区 b) 接收 缓冲 区 
图 5-8 TCP 发 送 缓 冲 区 和 接收 缓冲 区 的 关系 


为 了 简化 讨论 ， 先 忽略 以 下 事实 ， 缓冲 区 和 序号 都 是 有 限 数量 的 ， 因 此 最 终 会 回 统 。 
而 且 我 们 也 不 区 分 数据 中 某 个 特定 字 市 在 缓冲 区 存储 位 置 的 指针 与 字 节 的 序号 。 

首先 看 发 送 方 ， 它 维护 发 送 缓 冲 区 的 三 个 指针 : LastByteAcked、LastByteSent 和 
LastbyteWritten。 显 然 F 

LastByteAcked< LastByteSent 

KHAAA BB TAR AC SE. FE 

l LastByteSent<LastByte Written 

因为 TCP 不 能 发 送 应 用 程序 没 写 人 的 字 节 。 还 要 注意 ,不必 在 缓冲 区 中 保留 Last- 
byteAcked 左边 的 字 节 ， 因 为 它们 已 经 被 确认 了 ; 也 没有 必要 缓存 LastByteWritten 右边 
的 字 节 ， 因 为 它们 还 没 产生 。 | | 

在 接收 方 维护 着 一 组 类 似 的 指针 (序号 ); LastByteRead, NextByteExpected 和 Ea 
ByteRcvd。 然 而 因为 传输 的 错 序 问题 ， 不 等 式 不 那么 直观 。 第 一 个 关系 式 

LastByteRead< NextByteExpected 
BOL, Ay RAPS RABY PA aba, EA RB OCD APR AP BE. A 
满足 这 一 准则 ，NextByteExpected 指向 紧 接 最 后 一 个 字 节 的 那个 字 节 。 其 次 ， 
| NextByteExpected<LastByteRcvd+1 

成 立 ， 因 为 如 果 数 据 按 正确 的 顺序 到 达 ，NextByteExpected 指向 LastByteRevd 之 后 的 那 
个 字 节 ， 但 奉 数 据 到 达 是 错 序 的 ， 那 么 NextByteExpected 将 指向 数据 中 的 第 一 个 间隙 的 开始 
Ab, UP 5-8 所 示 。 注 意 ，LastByteRead 左边 的 字 节 不 必 再 保存 在 缓冲 区 中 ， 为 它们 已 经 
被 本 地 应 用 程序 读 取 ， 而 LastByteRevd 右边 的 字 节 也 不 必 缓 存 ， 因 为 它们 还 没 到 达 。 

2. 流量 控制 

以 上 讨论 的 绝 大 部 分 与 2. 5. 2 节 类 似 ， 唯 一 的 区 别 是 ， 发 送 应 用 进程 和 接收 应 用 进程 

分 别 填充 和 清除 它们 的 本 地 缓冲 区 ， 下 面 会 详 述 。 之 前 的 讨论 忽略 了 这 样 的 事实 ， 上 游 节 
点 到 来 的 数据 填 人 发 送 缓冲 区 ， 向 下 游 节 点 发 送 数据 后 清除 接收 缓冲 区 。 

你 必须 确定 在 继续 讨论 之 前 对 这 一 问题 已 经 理解 ， 因 为 现在 要 讨论 这 两 个 算法 更 大 的 
不 同 之 处 。 接 下 来 ， 再 次 说 明 收 发 双方 的 缓冲 区 具有 有 限 的 大 小 ， 分 别 用 MaxSendBuffer 
和 MaxRevBuffer 表示 ， 但 是 我 们 并 不 关心 它们 具体 是 如 何 实现 的 。 换 名 话说， 我 们 只 对 
被 缓存 的 字 节 数 感 兴趣 ， 而 不 管 这 些 字 节 实际 上 存储 在 什么 地 方 。 

回想 在 滑动 窗口 协议 中 ， 窗 口 的 大 小 决定 可 以 被 发 出 而 不 必 等 待 接收 方 确认 的 数据 
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量 。 这 样 ， 接 收 方 通过 给 发 送 方 通知 一 个 不 大 于 它 所 能 存放 数据 量 的 窗口 ， 就 能 控制 发 送 
方 的 发 送 速率 。 可 以 看 出 ， 在 接收 方 的 TCP 必须 保持 
| LastByteRcvd— LastByteRead< MaxRcevBuffer 
才能 避免 缓冲 区 溢出 。 因 此 它 通 知 的 窗口 大 小 为 
Advertised Window = MaxRcvBuffer— ( (NextByteExpected— 1)— LastByteRead) 
这 个 数值 代表 其 缓冲 区 中 剩余 的 可 用 空间 数量 。 当 数据 到 来 时 ， 只 要 它 前 面 的 字 节 已 经 到 
达 ， 接 收 方 就 会 对 它 确 认 。 另 外 ，LastByteRcvd 向 右 移动 (增加 )， 这 也 意味 着 通知 窗口 
可 能 缩小 。 通 知 窗口 是 否 缩小 依赖 于 本 地 应 用 进程 处 理 数据 的 快慢 。 如 果 本 地 进程 读 取 数 
据 的 速率 与 数据 到 达 的 速率 相同 (使 LastByteRead 和 LastByteRcvd 以 相同 的 速率 增加 )， 
那么 通知 窗 口 就 保持 打开 状态 CBN AdvertisedWindow 王 MaxRcvBuffer) 。 然 而 ， 如 果 接 收 
进程 的 速率 可 能 因为 它 对 读 到 的 每 个 字 节 要 进行 费时 的 操作 而 落后 ， 那 么 随 着 每 个 报 文 段 
的 到 来 ， 通 知 窗 口 就 会 变 得 很 小 ， 直 到 最 终 变 成 0。 | 
发 送 方 的 TCP 必须 遵守 从 接收 方 得 到 的 通知 窗口 。 这 就 意味 着 在 任何 时 刻 ， 它 必须 确保 
LastByteSent— LastByteAcked< Advertised Window 
换个 方 却说 ， 发 送 方 计 算 一 个 有 效 窗 口 ， 用 来 限制 它 可 以 发 送 多 少数 据 ; 
EtfectiveWindow= Advertised Window— (LastByteSent— LastByteAcked) 
显然 ， 只 有 EffectiveWindow 大 于 0， 发 送 方才 可 以 发 送 更 多 的 数据 。 因 此 ， 有 可 能 一 个 
报 文 段 到 达 而 确认 z 字 节 ， 从 而 允许 发 送 方 把 LastByteAcked 增加 x， 但 是 由 于 接收 进程 
没有 恋 取 任何 数据 ， 所 以 通知 窗口 比 先前 小 了 zx。 在 这 种 情况 下 ， 发 送 方 可 以 释放 缓冲 区 
空间 ， 但 不 能 再 发 送 任何 数据 。 
在 整个 过 程 中 ， 发 送 方 还 必须 始终 保证 本 地 应 用 进程 不 使 发 送 缓冲 区 溢出 ， 也 就 是 
 LastByteWritten— LastByteAcked< MaxSendBuffer 
如 果 发 送 进程 试图 向 TCP HA y SH, (AB 
(LastByteWritten— LastByteAcked) + y>>MaxSendBuftfer 
ABA, TCP 就 会 阻塞 发 送 进 程 ， 不 让 它 再 产生 数据 。 

”现在 应 该 可 以 理解 一 个 慢 速 接收 进程 是 如 何 使 一 个 快速 发 送 进程 最 终 停止 下 来 的 。 首 
先 ， 接 收 缓冲 区 填 满 ， 这 意味 着 通知 窗口 缩小 到 0。 通知 窗口 为 0 意味 着 发 送 方 不 能 发 送 
任何 数据 ， 即 使 它 以 前 发 送 的 数据 早已 被 成 功 确 认 。 最 后 ， 不 能 传输 任何 数据 意味 看 发 送 
缓冲 区 填 满 ， 最 终 使 TCP 将 发 送 进程 阻塞 。 接 收 进 程 重 新 开始 谈 取 数据 ， 接 收 方 TCP 就 
能 够 打开 它 的 窗口 ， 允 许 发 送 方 TCP 把 数据 从 它 的 缓冲 区 传送 出 去 。 当 这 个 数据 最 终 被 
确认 LastByteAcked 随 着 增加 时 ， 就 把 保存 这 个 被 确认 数据 的 缓冲 区 空间 释放 ， 发 送 进 
程 解除 阻塞 并 允许 继续 执行 。 

现在 只 剩 下 一 个 细节 需要 解决 ， 即 发 送 方 如 何 知道 通知 的 窗口 不 再 是 0? 如 上 所 述 ， 
TCP 总 是 发 送 一 个 报 文 段 对 接收 到 的 报 文 段 做 出 响应 ， 这 个 响应 包含 Ackonwledge 和 
AdvertisedWindow 字段 的 最 新 值 ， 即 使 这 两 个 值 自 上 次 发 送 以 来 没有 改变 。 问 题 正在 于 
此 。 一 旦 已 经 通知 接收 方 窗 口 变 为 0， 就 不 允许 发 送 方 发 送 任何 数据 ， 这 就 意味 着 它 没 有 
办 法 发 现在 将 来 的 某 个 时 刻 通知 窗口 不 再 是 0。 接收 方 的 TCP 不 会 自 发 地 发 送 不 包含 数据 
的 报 文 段 ， 它 只 在 响应 到 达 的 报 文 段 时 发 送 它们 。 

TCP 按 下 述 方式 处 理 这 种 情况 。 当 对 方 通知 的 窗口 变 为 0 时 ， 发 送 方 仍 坚持 不 停 地 发 
送 一 个 只 有 1 字 节 的 报 文 段 。 它 知道 这 个 报 文 段 有 可 能 不 被 接收 ， 但 它 还 是 要 答 试 ， 因 为 
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每 个 这 样 的 1 字 节 报 文 段 会 触发 包含 当前 通知 窗口 的 响应 。 最 终 ， 某 个 1 字 节 的 探测 报 文 
段 会 触发 一 个 报告 非 0 通知 窗口 的 响应 。 

结论 注意 ， 发送 方 周期 性 地 发 送 探测 报 文 段 的 原因 是 : TCP 被 设计 成 使 接收 

方 尽 可 能 地 简单 ， 即 它 只 响应 从 发 送 方 来 的 报 文 段 ， 而 它 和 目 己 从 不 发 起 任何 活 

动 。 这 是 公认 的 (尽管 并 不 是 通用 的 ) 协议 设计 规则 的 一 个 例子 ， 因 为 没有 较 好 

的 名 称 ， 我 们 称 其 为 聪明 的 发 送 方 / 策 拙 的 接收 方 (smart sender/dumb receiver) 

规则 。 在 2.5.2 节 讨论 NAK 的 用 法 时 ， 我 们 见 过 这 条 规则 的 另 一 个 例子 。 

3. By ik es _ 

本 节 和 下 节 考 虚 SequenceNum 字段 和 AdvertisedWindow 字段 的 大 小 以 及 它们 对 
TCP 正确 性 和 性 能 的 影响 。TCP 的 SequenceNum 字段 长 32 位 ，AdvertisedWindow 字段 
长 16 位 ， 也 就 是 说 TCP 无 疑 已 经 满足 滑动 窗口 算法 的 要 求 ， 即 序号 空间 是 窗口 空间 的 两 
倍 ，232 六 2X21 。 然 而 ， 这 个 要 求 对 这 两 个 字段 并 不 重要 。 下 面 依次 考虑 每 个 字段 。 

32 位 序号 空间 的 相关 问题 是 ， 某 个 连接 使 用 的 序号 可 能 会 回 绕 ， 即 具有 序号 z 的 一 
个 字 节 在 某 个 时 刻 被 发 送出 ， 一 段 时 间 后 ， 第 二 个 具有 序号 x IFA A RER AI Hh o 
再 次 假设 一 个 分 组 在 因特网 上 的 生存 期 不 超过 MSL 的 建议 值 。 这 样 ， 当 前 的 任务 是 确保 
序号 在 这 120s 的 期 限 内 不 会 回 绕 。 这 种 情况 是 否 会 发 生 依赖 于 数据 在 因特网 上 传输 的 速 
度 ， 也 就 是 说 ，32 位 的 序号 空间 多 快 被 用 完 〈 这 里 的 讨论 假设 尽 可 能 快 地 消耗 序号 空间 ， 
当然 只 要 让 管道 在 传输 进行 中 保持 满载 就 能 如 此 )。 表 5-1 显示 了 具有 不 同 带 宽 的 网 络 使 
序号 回 绕 的 时 间 。 | a 

可 见 ，32 位 的 序号 空间 对 当今 的 网 络 是 足够 的 ， 但 是 对 于 当前 存在 于 因特网 主干 网 
上 的 OC-192 链 路 ， 在 单个 TCP 连接 以 622Mbps 或 更 高 速率 〈 现 多 数 服务 器 都 具备 千 兆 
以 太 网 口 ) TRIP RE EAB. HN, IETF 已 经 完成 了 对 TCP 的 扩展 工作 ， 
通过 有 效 地 扩展 序号 空间 来 防止 序号 回 绕 。 这 个 工作 以 及 相关 的 扩展 在 5. 2. 8 GK 

4. 保持 管道 满载 

与 16 位 AdvertisedWindow 字段 相关 的 问题 是 ， 它 必须 足够 大 以 使 得 发 送 方 能 够 保持 
管道 满载 。 显 然 ， 接 收 方 可 以 不 把 窗口 开放 到 AdvertisedWindow 字段 所 允许 的 最 大 值 。 
我 们 只 关心 接收 方 是 否 有 足够 的 缓冲 区 空间 可 以 处 理 AdvertisedWindow 所 允许 的 最 大 数 
据 量 的 情况 。 | | 

在 这 种 情况 下 ， 网 络 带宽 和 延迟 带宽 积 共同 决定 AdvertisedWindow 字段 应 有 的 大 小 。 
窗口 必须 开放 得 足够 大 ， 使 得 数量 为 延迟 X 带 宽 的 全 部 数据 能 被 传输 。 假设 有 100ms 的 
RTT (穿越 美国 大 陆 的 连接 的 典型 数字 )， 表 5-2 给 出 了 几 种 网 络 技术 的 延迟 带宽 积 。 


表 5-1 32 比特 序号 空间 的 回 绕 时 间 ” 表 5-2 100ms RTT 所 需 的 窗口 大 小 

OF z 回 绕 时 间 带 g | 延迟 X 带 宽 
T1 (1. 5Mbps) 6.4 小 时 T1 (1. 5Mbps) 18KB 
以 太 网 (10Mbps) 857 4} ah 以 太 网 (10Mbps) 122KB 
T3 (45Mbps) 13 分 钟 T3 (45Mbps) 549KB 
快速 以 太 网 (100Mbps) 6 分 钟 ” ”快速 以 太 网 (100Mbps) 1. 2MB 
OC-3 (155Mbps) 4 分 锅 OC-3 (155Mbps) 1. 8MB 
OC-12 (622Mbps) | 55 pb OC-12 (622Mbps) 7. 4MB 


0C-48 (2. 5Gbps) 14 秒 OC-48 (2. 5Gbps) 29. 6MB 
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可 以 看 出 ，TCP 的 AdvertisedWindow 字段 比 SequenceNum = Be kh T EIE E A SL 
它 的 大 小 甚至 不 足以 处 理 横 穿 美国 大 陆 的 T3 连接 ， 因 为 16 比特 的 字段 只 允许 64KB 的 通 
知 窗 口 。TCP 扩展 (参见 5. 2. 8 节 ) 提供 了 一 种 有 效 增加 通知 窗口 大 小 的 机 制 。 


5.2.5 触发 传输 


接 下 来 考虑 一 个 微妙 的 问题 ，TCP 怎样 决定 传输 一 个 报 文 裔 。 如 前 所 述 ，TCP 支持 
一 种 字 节 流 抽象 ， 即 应 用 程序 把 字 节 写 到 流 里 ， 而 由 TCP 决定 字 节 数 是 否 达到 足以 发 送 
一 个 报 文 段 的 要 求 。 支 配 这 个 决定 的 因素 是 什么 呢 ? | 

如 果 忽 略 流量 控制 的 可 能 性 ， 即 假设 窗口 是 敞开 的 ， 就 像 一 个 连接 刚 开 始 时 的 情形 ， 
那么 TCP 有 三 种 机 制 触发 一 个 报 文 段 的 传输 。 第 一 种 机 制 ，TCP 维护 一 个 变量 ， 称 为 最 
大 报 文 段 长 度 (MSS), —E TCP 从 发 送 进程 收集 到 MSS 字 节 ， 它 就 发 送 一 个 报 文 段 。 
通常 把 MSS 设置 成 TCP 能 发 送 而 且 不 造成 本 地 P 分 段 的 最 大 报 文 段 长 度 。 也 就 是 说 ， 
MSS 被 设置 成 直接 连接 网 络 的 最 大 传输 单元 (MTU) WE TCP 和 IP 首部 的 大 小 。 第 二 
种 触发 TCP 发 送 一 个 报 文 段 的 机 制 是 ， 发 送 进程 明确 要 求 TCP 发 送 一 个 报 文 段 。 特 别 是 
TCP 支持 push 操作 ， 发 送 进程 调用 这 个 操作 能 使 TCP 将 缓冲 区 中 所 有 未 发 送 的 字 节 发 送 
出 去 。 最 后 一 种 触发 TCP 发 送 一 个 报 文 段 的 机 制 是 定时 器 激活 ， 结 果 报 文 段 中 包含 当前 
缓冲 区 中 所 有 需要 发 送出 去 的 字 节 。 然 而 ， 我 们 很 快 就 会 看 到 ， 这 个 “定时 器 ”并 不 完全 
如 所 期 望 的 那样 。 
“1 傻瓜 窗口 症状 | 

当然 ， 流 量 控制 不 能 被 忽略 ， 它 对 控制 发 送 方 起 着 显而易见 的 作用 。 如 果 发 送 方 有 
MSS 字 节 数据 要 传输 而 窗口 至 少 打开 了 那么 大 ， 那 么 发 送 方 就 传输 一 个 满 报 文 段 。 但 是 ， 
如 果 发 送 方 正在 积累 要 发 送 的 字 节 ， 而 窗口 是 关闭 的 。 现 在 假设 有 一 个 ACK 到 达 ， 使 窗口 
开 到 足以 让 发 送 方 传输 ， 比 如 说 MSS/2 字 节 。 那 么 发 送 方 是 发 出 一 个 半 满 的 报 文 段 还 是 等 
待 窗口 开 大 到 MSS? 最 初 的 TCP 规范 并 未 对 这 一 点 进行 说 明 ， 但 早期 的 TCP 实现 决定 进行 
发 送 ， 并 传输 一 个 半 满 的 报 文 段 。 毕 竞 ， 无 法 得 知 多 长 时 间 以 后 窗口 才 会 进一步 开放 。 

事实 证 明 ， 一 味 地 利用 任何 可 用 窗口 的 策略 会 导致 现在 称 作 傻瓜 窗口 症状 〈silly win- 
dow syndrome) 的 情形 。 图 5-9 有 助 于 想象 发 生 的 情况 。 如 果 把 TCP 流 看 作 是 一 个 传送 
带 ， 把 “满载 ”的 容器 〈 报 文 段 ) 向 一 个 方向 移动 ， 空 的 容器 (ACK 段 ) 向 相反 方向 移 
Bh, BRA MSS 大 小 的 报 文 段 就 对 应 大 容器 而 1 字 节 的 报 文 段 就 对 应 很 小 的 容器 。 只 要 发 
送 方 发 送 MSS 大 小 的 报 文 并 且 接 收 方 一 次 接收 一 个 MSS 大 小 的 数据 ， 那 么 一 切 都 没 问题 
( 见 图 5-9a) 。 但 是 ， 如 果 接 收 方 必须 减少 窗口 导致 发 送 方 在 一 段 时 间 内 不 能 完整 地 发 送 
一 个 MSS 大 小 的 数据 将 会 发 生 什么 ?如 果 只 要 有 小 于 MSS 的 空 容器 到 达 ， 发 送 方 就 一 味 


”地 填充 ， 接 收 方 将 会 确认 它 ， 因 此 任何 引入 系统 的 小 容器 就 可 能 不 定期 地 留 在 系统 中 。 也 


就 是 说 ， 在 每 一 端 小 容器 会 立刻 被 填充 或 被 清除 ， 而 从 不 会 联合 毗邻 的 容 絮 来 创建 一 个 更 
大 的 容器 ， 参 见 图 5-9b。 当 早期 的 TCP 实现 定期 地 发 觉 自己 用 很 小 的 报 文 段 充满 网 络 时 ， 
XPP VE BORK” MaRS. 

注意 ， 只 有 在 发 送 方 传 输 小 报 文 段 或 接收 方 打开 小 窗口 时 才 会 出 现 傻瓜 窗口 症状 。 如 
果 这 两 种 情况 都 未 发 生 ， 那 么 小 容器 就 永远 不 会 被 引入 数据 流 中 。 禁 止 发 送 小 报 文 段 是 不 
可 能 的 。 举 例 来 说 ， 应 用 程序 可 以 在 只 发 出 一 个 字 节 后 就 执行 push 操作 。 但 是 防止 接收 
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a) 如 果 发 送 方 发 送 MSS 大 小 的 报 文 段 ， 同 时 接收 方 接收 MSS 
的 报 文 段 ， 系 统 运转 顺利 


ETT TTT TT 





TE 





b) 如 果 发 送 方 发 送 小 于 MSS 大 小 的 报 文 段 或 者 接收 方 接 收 小 于 MSS 的 
报 文 段 ， 那 么 这 个 小 “容器 ”就 会 进入 系统 并 一 直 存 在 


图 5-9 傻瓜 窗口 症状 


方 引入 小 的 容器 〈 即 打开 小 窗口 ) 是 可 能 的 。 其 规则 是 接收 方 在 通知 一 个 大 小 为 零 的 窗口 
后 ， 必 须 等 到 有 MSS 大 小 的 空间 才能 再 通知 打开 窗口 。 
由 于 不 能 排除 小 容器 被 引入 数据 流 的 可 能 性 ， 所 以 需要 采用 把 它们 合并 起 来 的 机 
制 。 接 收 方 可 以 通过 延迟 发 送 ACK 做 到 这 一 点 (发 送 一 个 合并 的 ACK 而 不 是 几 个 小 
ACK) ， 然 而 这 只 解决 了 部 分 问题 ， 因 为 接收 方 无 法 知道 在 等 待 下 一 个 报 文 段 到 达 或 
应 用 程序 读 出 更 多 的 数据 (因此 而 打开 窗口 时， 等待 多 久 才 是 安全 的 。 最 终 解 决 问 
题 的 重任 落 到 发 送 方 ， 这 又 回 到 了 最 初 的 问题 : 发 送 方 什么 时 候 决 定 传输 一 个 报 
文 段 ? 
2. Nagle 算法 | | | 
EA TCP 的 发 送 方 ， 如 果 有 数据 要 发 送 但 是 打开 的 窗口 小 于 MSS， 那 么 在 发 出 可 用 
数据 之 前 可 能 要 等 待 一 段 时 间 ， 但 问题 是 等 得 多 久 ? 如 果 等 待 太 久 ， 就 会 有 损 于 像 Telnet 
这 样 的 交互 式 应 用 程序 。 如 有 果 等 待 的 时 间 不 够 长 ， 又 会 面临 发 出 很 多 小 分 组 而 陷入 傻瓜 窗 
口 症状 的 风险 。 管 案 是 引入 一 个 定时 器 ， 时 间 到 了 就 传输 数据 。 
虽然 可 以 引入 一 个 基于 时 钟 的 定时 器 ， 比 如 每 100ms 激活 一 次 ， 但 是 Nagle 引入 了 一 
种 完美 的 自 计 时 (self-clocking) 方案 。 其 思想 是 只 要 TCP 发 出 了 数据 ， 发 送 方 终究 会 收 
到 一 个 ACK。 可 以 把 这 个 ACK 看 成 激活 的 定时 器 ， 触 发 传输 更 多 的 数据 。Nagle 算法 提 
供 了 一 条 决定 何 时 传输 数据 的 简单 统一 的 规则 : 
当 应 用 产生 要 发 送 的 数据 时 
if 可 用 数据 和 窗口 宇 MSS 
发 送 满载 的 报 文 段 
else 8 
if 有 正在 传输 的 报 文 段 
缓存 新 数据 直到 ACK 到 达 
else 
发 送 所 有 新 数据 | \ 
换 句 话说 ， 如 果 窗 口 大 小 允许 ， 那 么 就 可 以 发 出 一 个 满载 的 报 文 段 ， 如 果 当 前 没有 
处 于 传输 中 的 报 文 段 ， 也 可 以 立即 发 出 一 个 小 报 文 段 ;! 但 是 如 果 有 传输 的 报 文 段 ， 发 送 
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Fi DBS FFE ACK 到 达 才 可 传输 下 一 个 报 文 段 。 这 样 ， 像 Telnet 这 类 每 次 写 一 个 字 
广 的 交互 式 应 用 程序 将 能 以 每 RTT 一 个 报 文 段 的 速率 发 送 数据 。 有 些 报 文 段 只 有 一 个 
FP, MER BORA ARES RTT 的 时 间 内 能 输入 的 所 有 字 节 。 因 为 有 些 应 
用 程序 不 能 容忍 每 次 TCP 连接 写 操作 的 延迟 ， 所 以 套 接 字 接 口 允许 应 用 程序 通过 设置 
TCP __ NODELAY 选项 来 关闭 Nagle 算法 。 设 置 这 个 选项 意味 着 数据 被 尽 可 能 快 地 
传输 。 


5.2.6 自 适 应 重 传 


由 于 TCP 保证 可 靠 的 数据 传送 ， 所 以 如 果 在 一 定 的 时 限 内 没有 收 到 ACK, BRA E Rt 
会 重 传 每 个 报 文 段 。TCP 把 这 个 超时 设置 成 它 期 望 的 连接 两 端的 RTT 的 函数 。 不 幸 的 
是 ， 即 使 给 出 因特网 上 任意 一 对 主机 之 间 RTT 可 能 的 范围 ， 也 给 出 同一 对 主机 之 间 RTT 
随时 间 的 变化 ， 选 择 一 个 合适 的 超时 值 也 并 不 容易 。 为 了 处 理 这 个 问题 ，TCP 使 用 一 种 
目 适 应 重 传 机 制 。 下 面 描述 这 种 机 制 以 及 它 是 怎样 随 着 因特网 业界 使 用 TCP 获得 的 经 验 
而 发 展 起 来 的 。 

1. 原始 算法 

我 们 从 计算 一 对 主机 之 间 超 时 值 的 简单 算法 开始 。 这 是 最 初 在 TCP 规范 中 描述 的 算 
法 〈 下 面 用 规范 中 的 术语 描述 ) ， 但 是 它 适 用 于 任何 庙 到 端 协议 。 

算法 的 思想 是 ， 维 持 一 个 RTT 的 平均 运行 值 ， 并 把 超时 值 作为 RTT 的 一 个 函数 计 
算 。 特 别 地 ， 每 次 TCP 发 送 一 个 数据 报 文 段 ， 它 便 记 录 发 送 时 刻 。 当 那个 报 文 段 的 ACK 
到 达 时 ，TCP 再 次 读 取 时 间 ， 然 后 把 这 两 次 时 间 的 差 作为 SampleRTT。 接 着 TCP 利用 以 
前 的 估计 值 和 这 个 新 的 样本 值 计 算出 EstimatedRTT 作为 加 权 平 均值 。 即 

EstimatedRTT=aX EstimatedRTT + (1—a@) X SampleRTT 
选择 参数 a 是 为 了 平滑 EstimatedRTT。 较 小 的 a 值 可 以 跟踪 RTT 的 变化 ， 但 是 它 可 能 受 
瞬时 波动 的 影响 过 于 严重 。 另 一 方面 ， 一 个 大 的 a 值 更 稳定 但 不 能 迅速 适应 真正 的 变化 。 
原始 TCP 规范 建议 a 值 设置 在 0.8 一 0. 9 之 间 。TCP 用 EstimatedRTT 以 较 保 守 的 方式 计 
算 超 时 值 : 
TimeOut=2 X EstimatedRTT 





2. Karn/Partridge 算法 
在 因特网 上 应 用 几 年 以 后 ， 人 们 在 这 个 简单 算法 中 发 现 了 一 个 明显 的 缺陷 。 问 题 是 


ACK 实际 上 并 不 确认 传送 ， 而 是 确认 数据 的 接收 。 换 句 话 说， 无 论 何 时 重 传 一 个 报 文 段 ， 
然后 一 个 ACK 到 达 发 送 方 ， 它 都 不 可 能 为 测量 样本 RTT 确定 这 个 ACK 是 针对 第 一 个 报 
文 段 还 是 第 二 个 重 发 的 报 文 段 。 发 送 方 有 必要 知道 这 个 ACK 是 针对 哪 一 次 发 送 的 ， 以 便 
计算 一 个 精确 的 SampleRTT。 如 图 5-10 所 示 ， 如 果 错 把 针对 第 二 个 报 文 段 的 ACK 当成 
针对 第 一 个 报 文 段 的 ，SampleRTT 就 会 过 大 OLA 5-10a)， 相 反 ， 如 果 错 把 与 第 一 个 报 
文 段 关联 的 ACK 当成 第 二 个 报 文 段 的 ACK, AKA SampleRTT 就 会 过 小 〈 见 图 5-10b) 。 
解决 办 法 相当 简单 。 当 TCP 重 传 一 个 报 文 段 时 ， 它 停止 计算 RTT 的 样本 值 ， 即 它 只 
为 仅 发 送 一 次 的 报 文 段 测 量 SampleRTT。 这 个 算法 就 是 著名 的 以 其 发 明 者 命名 的 Karn/ 
Partridge 算法 。 他 们 提出 的 修正 法 还 包括 一 个 对 TCP 超时 机 制 较 小 的 改动 。 每 次 TCP E 
传 时 ， 它 设置 下 次 的 超时 值 为 上 次 的 两 倍 ， 而 并 不 以 上 次 的 EstimatedRTT 为 基础 。 也 就 


SampleRTT 





a) 原始 传输 oy) BEAR 
图 5-10 与 原始 传输 和 重 传 关联 的 ACK 


是 说 ，Karn 和 Partridge 提出 TCP 使 用 指数 回 退 算法 ， 就 像 以 太 网 中 一 样 。 使 用 指数 回 
退 算 法 的 动机 很 简单 ， 拥塞 最 可 能 导致 报 文 段 丢失 ， 这 表明 TCP 源 主 机 对 超时 的 反应 不 
应 该 太 主 动 。 实 际 上 ， 连 接 超时 次 数 越 多 ， 源 主机 越 会 小 心意 愤 。 在 第 6 章 中 会 看 到 这 一 
思想 在 更 复杂 的 机 制 中 再 次 体现 。 

3. Jacobson/Karels 算法 

Karn/Partridge 算法 提出 时 ， 正 着 因特网 经 受 严 重 网 络 拥塞 的 时 期 。 该 方法 用 于 解决 
一 些 拥塞 问题 ， 虽 然 有 一 定 改 进 ， 但 拥塞 并 未 消除 。 几 年 以 后 ， 男 外 两 位 研究 人 员 Jacob- 
son 和 Karels 提出 对 TCP 进行 进一步 的 改进 来 对 付 拥塞 问题 。 这 个 建议 的 重要 内 容 在 第 6 
章 描 述 。 这 里 只 关注 与 决定 何 时 超时 并 重 传 报 文 段 有 关 的 提议 。 

另外 ， 必 须 清楚 超时 机 制 是 怎样 与 拥塞 相关 的 。 如 果 超 时 太 快 ， 可 能 不 必要 重 传 报 文 
段 ， 那 样 只 会 增加 网 络 的 负载 。 在 第 6 章 会 看 到 ， 需 要 准确 超时 值 的 另 一 个 原因 是 超时 被 
用 来 暗示 发 生 了 拥塞 ， 它 会 触发 拥塞 控制 机 制 。 最 后 要 注意 ，Jacobson/Karels 关于 超时 
的 计算 并 没有 什么 特别 针对 TCP 的 东西 ， 它 可 以 用 于 任何 端 到 端 协议 。 

原始 计算 的 主要 问题 是 没有 考虑 到 RIT 样本 的 变化 。 直 觉 上 ， 如 果 样 本 变化 小 ， 则 
EstimatedRTT 的 值 就 更 为 可 信 ， 没 必要 把 这 个 值 乘 以 2 来 计算 超时 信 。 另 一 方面 ， 样 本 
变化 很 大 说 明 超 时 值 应 该 远 不 止 是 EstimatedRTT 的 两 倍 。 

在 新 方法 中 ， 发 送 方 与 以 前 一 样 测量 一 个 新 的 SampleRTT， 并 把 这 个 新 样本 按 如 下 
方法 包含 到 超时 计算 中 

Difference= SampleRTT— EstimatedRTT 
EstimatedRTT=EstimatedRTT + (8X Difference) 

| Deviation= Deviation +8( | Difference | — Deviation) 
”其 中 , 8 是 0~1 之 间 的 小 数 。 也 就 是 说 ， 计 算 RTT 的 平均 值 以 及 该 平均 值 的 变化 。 

接着 TCP 把 超时 值 作为 EstimatedRTT 和 Deviation 的 函数 计算 ， 

| TimeOut=p X EstimatedRTT + ¢ X Deviation | 

Hp, REZE, p 通常 设 为 1，$ 设 为 4。 这 样 ， 当 变化 小 时 ，TimeOnut 与 Estimate- 
dRTT 接近 ， 而 大 的 变化 会 使 Deviation 项 决定 计算 结果 。 

4. 实现 | 

关于 TCP 中 超时 的 实现 ， 有 两 点 需要 注意 。 第 一 点 ， 可 以 不 用 浮 点 算术 实现 Esti- 
matedRTT 和 Deviation 的 计算 。 相 反 ， 将 8$ 选 作 1/2"， 整 个 计算 以 2" 的 比例 增加 。 这 


Fa BY He IX | | 225 


使 得 能 够 用 移 位 实现 乘法 和 除法 的 整数 运算 ， 因 此 获得 较 高 的 性 能 。 下 面 的 代码 段 给 出 
了 相应 的 计算 方法 ， 其 中 n=3 ( 即 O=1/8), HER EstimatedRTT 和 Deviation 以 按 比 例 
放大 的 形式 存储 ， 而 代码 开始 处 的 SampleRTT 和 结尾 处 的 TimeOut 是 真正 的 未 放大 的 
值 。 如 果 认 为 代码 难以 理解 ， 那 么 可 以 代入 一 些 真实 数值 ， 验 证 它 的 结果 与 上 面 的 公式 
一 致 。 
{ 
SampleRTT -= (EstimatedRTT >> 3); 
EStimatedRTT += SampleRTT; 
if (SampleRTT < 0) 
SampleRTT = -SampleRTT; 
SampleRTT -= (Deviation >> 3); 
Deviation += SampleRTT; 
TimeQut = (EstimatedRTT >> 3) + (Deviation >> 1); 
} 
需要 注意 的 第 二 点 是 ，Jacobson 和 Karels 的 算法 实际 上 相当 于 读 取 当前 时 间 的 时 
钟 。 在 典型 的 UNIX 实现 中 ， 时 钟 粒度 大 到 500ms， 显 然 比 横 穿 美国 的 在 100 一 200ms 
之 间 的 平均 RTT 值 大 得 多 。 更 糟 的 是 ， 在 典型 的 UNIX 实现 中 ，TCP 的 实现 只 在 每 个 
500ms 时 刻 检查 是 否 发 生 超 时 ， 而 且 只 对 每 个 RTT 取 一 次 往返 时 间 样 本 。 这 两 个 因素 
的 组 合意 味 着 一 个 报 文 段 传输 1s 后 发 生 超 时 。 因 此 ，TCP 的 扩展 还 包含 一 个 使 RTT 计 
算 更 准确 的 机 制 。 
目前 讨论 过 的 所 有 重 传 算法 都 基于 确认 机 制 ， 通 过 超时 来 表明 报 文 段 可 能 已 经 丢失 。 
然而 ， 超 时 并 没有 告诉 发 送 方 在 丢失 报 文 段 之 后 发 送 的 报 文 段 是 否 成 功 到 达 ， 因 为 TCP 
的 确认 是 累积 确认 ， 它 只 确认 所 收 到 的 没有 间隔 的 最 后 一 个 报 文 段 。 在 间隔 之 后 接收 的 报 
文 段 导致 了 更 大 的 窗口 ， 如 果 能 够 对 间隔 之 后 正确 接收 的 报 文 段 进行 确认 ， 那 么 发 送 方 就 
具有 更 高 的 智能 性 ， 能 够 了 解 到 更 实际 的 拥堵 状态 ， 从 而 对 RTT 有 更 准确 的 信 计 。5. 2.8 
“See Se HRY TCP 扩展 机 制 能 够 做 到 这 一 点 。 








5.2.7 ”记录 边界 


由 于 TCP 是 面向 字 节 流 的 协议 ， 因 此 每 次 发 送 方 写 人 的 字 节 数 未 必 与 接收 方 读 出 的 
字 节 数 相等 。 例 如 ， 应 用 程序 向 一 个 TCP 连接 写 人 8 字 节 ， 接 着 写 人 2 字 节 ， 然 后 又 写 
入 20 字 节 ; 而 在 接收 方 ， 应 用 程序 每 次 只 读 5 字 节 ， 循 环 读 6 次 。TCP 不 在 第 8 和 第 9 
个 字 节 以 及 第 10 和 第 11 个 字 节 之 间 插 入 记录 的 边界 。 这 与 面向 数据 报 的 协议 (如 UDP) 
相反 ， 在 面向 数据 报 的 协议 中 发 送 的 消息 与 接收 到 的 消息 长 度 完全 相同 。 

虽然 TCP 是 面向 字 节 流 的 协议 ， 但 它 有 两 个 不 同 的 特性 可 被 发 送 方 用 来 在 字 节 流 中 
插入 记录 边界 ， 因 而 通知 接收 方 如 何 把 字 节 流 分 成 记录 〈 例 如 ， 在 许多 数据 库 应 用 中 ， 能 
标记 出 记录 的 边界 是 有 用 的 )。 这 两 个 特性 最 初 由 于 完全 不 同 的 原因 被 包含 在 TCP 中 ,但 
它们 一 直 未 被 使 用 ， 直 到 用 于 这 个 目的 。 

第 一 个 机 制 是 紧急 数据 特性 ， 在 TCP 首部 用 URG 标志 和 UrgPtr 字段 实现 。 最 初 ， 
紧急 数据 机 制 被 设计 成 允许 发 送 应 用 程序 向 其 对 等 实体 发 送 带 外 (out-of-band) 数据 。 用 
“ 带 外 ”是 为 了 与 正常 数据 流 中 的 数据 相 区 别 ， 如 用 命令 中 断 正在 进行 的 操作 。 在 报 文 段 
中 ， 这 个 带 外 数据 用 UrgPtr 字段 标识 ， 一 到 达 就 立即 传递 给 接收 进程 ， 即 使 这 意味 着 在 
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传输 具有 更 早 序号 的 数据 之 前 传输 它 。 然 而 ， 这 个 特性 一 直 没 有 得 到 应 用 ， 所 以 人 们 不 再 
用 它 来 表示 “紧急 ”数据 ， 而 是 渐渐 地 用 它 来 表示 “特殊 ”数据 ， 比 如 一 个 记录 标记 。 与 
push 操作 一 样 ， 这 个 用 法 发 展 起 来 是 因为 接收 方 的 TCP 必须 通知 应 用 程序 有 紧急 数据 到 
达 。 也 就 是 说 ， 紧 急 数据 本 身 并 不 重要 ， 重 要 的 是 发 送 进程 能 有 效 地 向 接收 方 发 送信 号 。 

第 二 个 向 字 节 流 插入 记录 结束 标记 的 机 制 是 push 操作 。 最 初 设计 这 种 机 制 是 用 来 使 
发 送 进 程 能 告诉 TCP， 不 管 它 收 集 了 多 少 字 节 ， 应 立刻 把 它们 发 送 给 对 等 实体 。push 可 
以 用 来 实现 记录 分 界 ， 因 为 TCP 规范 说 明 ， 当 应 用 程序 要 求 push 时 ， 不管 源 端 缓冲 区 有 
多 少数 据 ，TCP 必须 将 它们 发 送出 去 ， 如 果 目 的 端 TCP 支持 这 个 选项 ， 那 么 无 论 何 时 接 
收 到 有 PUSH 标志 的 报 文 段 ， 都 要 通知 应 用 程序 。 因 此 ， 如 果 接 收 端 支持 这 个 选项 E 
接 字 接口 不 支持 ) ， 就 可 以 用 push 操作 将 TCP 流 分 割 成 记录 。 

当然 ， 应 用 程序 总 是 不 依靠 TCP 的 任何 帮助 就 能 随意 插入 记录 边界 。 例 如 ， 它 可 以 
发 送 一 个 字段 指明 随后 的 记录 长 度 ， 或 向 数据 流 中 插入 它 自己 的 记录 边界 标记 ，。 


5.2.8 TOP 扩展 


我 们 已 在 本 节 四 个 不 同 的 地 方 提 到 ， 目 前 对 TCP 的 扩展 有 助 于 缓和 其 面临 的 由 于 底 
层 网 络 变 得 更 快速 而 带 来 的 一 些 问 题 。 这 些 扩展 被 设计 成 对 TCP 协议 的 影响 尽 可 能 地 小 。 
特别 是 在 实现 时 ， 它 们 作为 可 选项 添加 到 TCP 的 首部 。 (虽然 先前 未 加 说 明 ， 但 TCP 首 
部 有 一 个 HdrLen 字段 的 原因 是 其 首部 的 长 度 是 可 变 的 ， 而 TCP 首部 的 可 变 长 度 部 分 包 
含 已 经 加 入 的 可 选项 .) 把 这 些 扩展 功能 添加 为 可 选项 而 不 是 改变 TCP 基本 首部 的 重要 性 
在 于 ， 即 使 没有 实现 这 些 选项 ， 主 机 之 间 仍 然 可 以 使 用 TCP 进行 通信 。 然 而 ， 对 于 实现 
这 些 可 选 的 扩展 功能 的 主机 ， 就 可 以 利用 它们 。 在 TCP 连接 的 建立 阶段 ， 连 接 的 双方 可 
以 对 是 否 使 用 扩展 功能 达成 一 致 。 

第 一 个 扩展 功能 有 助 于 改进 TCP 的 超时 机 制 。TCP 不 使 用 粗 粒 度 事件 来 测量 RTT, 
而 是 在 即将 发 送 一 个 报 文 段 时 ， 读 取 实 际 的 系统 时 钟 ， 并 把 这 个 时 间 值 (可 以 把 它 想 象 成 
一 个 32 位 的 时 标 放 到 该 报 文 段 的 首部 。 接 收 方 在 其 确认 中 把 这 个 时 标 返 回 给 发 送 方 ， 而 
发 送 方 从 当前 时 间 中 减 去 这 个 时 标 就 可 以 测 出 RTT。 实 际 上 ， 这 个 时 标 选 项 为 TCP 提供 
了 一 个 理想 的 场所 来 存储 某 个 报 文 段 是 何 时 被 传输 的 ， 它 把 时 间 存 放 在 报 文 段 中 。 注 意 ， 
连接 中 的 两 端 并 不 需要 进行 时 钟 同 步 ， 因 为 时 标 是 在 连接 的 同一 端 被 写 人 和 读 取 的 。 

第 二 个 扩展 解决 TCP 的 32 位 SequenceNum 字段 在 高 速 网 络 上 回 绕 过 快 的 问题 。 
”TCP 并 不 定义 一 个 新 的 64 位 的 序号 字段 ， 而 是 使 用 刚 描 述 的 32 位 时 标 有 效 地 扩展 序号 空 
间 。 换 旬 话 说 ，TCP 根据 一 个 64 位 的 标识 符 决定 接收 或 丢弃 一 个 报 文 段 ， 这 个 标识 符 由 
— AK 32 位 的 SequenceNum 字段 和 高 32 位 的 时 标 构成 。 由 于 时 标 一 直 在 增加 ， 所 以 可 以 用 
它 来 区 分 有 相同 序号 的 两 个 不 同 的 报 文 段 。 注 意 ， 以 这 种 方式 使 用 时 标 只 是 为 了 防止 序号 
回 绕 现 象 ， 它 并 不 作为 序号 的 一 部 分 而 用 于 数据 的 排序 和 确认 。 

第 三 个 扩展 功能 允许 TCP 通知 更 大 的 窗口 ， 因 此 人 允许 它 填 充 可 能 由 高 速 网 络 形成 的 
更 大 的 延迟 X 带宽 管道 。 这 个 扩展 功能 有 一 个 选项 ， 它 为 通知 窗口 定义 一 个 扩展 因子 
(scaling factor) 。 也 就 是 说 ， 不 把 出 现在 AdvertisedWindow 字段 中 的 数值 解释 为 发 送 方 
允许 有 多 少 字 节 不 被 确认 ， 这 个 选项 允许 TCP 连接 的 双方 同意 AdvertisedWindow 字段 计 
算 更 大 的 数据 块 〈 例 如 ， 发 送 方 可 以 有 多 少 个 16 字 节 数据 单元 不 被 确认 ) 。 换 句 话说， 这 
个 窗口 扩展 选项 说 明 ， 在 用 AdvertisedWindow 字段 中 的 内 容 计 算 有 效 窗 口 之 前 ， 每 一 方 
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应 将 它 左 移 多 少 位 。 

第 四 个 扩展 功能 扩充 了 TCP 的 累积 确认 功能 ， 方 法 是 对 收 到 的 与 先前 已 收 到 的 报 文 
段 不 连续 的 报 文 段 进 行 可 选 确认 ， 这 称 为 可 选 确认 (selective acknowledgment) 或 
SACK., {EH SACK 选项 时 ， 接 收 方 继续 确认 报 文 段 ， 确 认 字 有 段 的 确认 方式 不 变 ， 但 也 使 
用 首部 的 选项 字段 来 确认 接收 到 的 其 他 数据 块 。 这 使 得 发 送 方 能 够 根据 可 选 确认 来 重 传 确 
实 已 经 丢失 的 报 文 段 。 

WMATA SACK， 发 送 方 只 有 两 个 合理 的 策略 。 悲 观 的 策略 使 得 发 生 超时 后 TCP 不 
仅 重 传 超时 的 报 文 段 ， 而 且 还 要 重 传 该 报 文 段 之 后 可 能 并 没有 发 生 超 时 的 报 文 段 。 该 策略 
实际 上 做 了 最 坏 的 假设 ， 即 所 有 报 文 段 都 丢失 了 。 该 策略 的 缺点 是 它 可 能 不 必要 地 重 传 了 
那些 已 经 被 成 功 接收 的 报 文 段 。 男 一 个 策略 是 比较 乐观 的 ， 它 仅 重 传 那些 发 生 了 超时 的 报 
文 奶 ， 它 认为 只 有 一 个 报 文 眉 丢失 了 。 这 种 乐观 策略 的 缺点 是 运行 比较 慢 ， 当 拥塞 严重 
时 ， 可 能 会 丢失 连续 的 一 系列 报 文 段 ， 但 只 有 收 到 对 先前 报 文 段 重 传 的 确认 时 ， 才 会 发 现 
报 文 段 丢 失 。 因 此 对 每 个 报 文 段 消耗 了 一 个 RTT， 直 到 重 传 了 丢失 报 文 段 序列 中 的 所 有 
报 文 段 。 使 用 SACK 选项 ， 可 以 使 发 送 方 采用 一 种 更 好 的 策略 : 只 重 传 那些 能 够 填充 可 选 
确认 报 文 段 间 隔 的 报 文 段 。 

顺便 说 一 下 ， 这 些 延 伸 并 不 是 所 有 需求 。 在 下 一 章 讨 论 TCP 如 何 处 理 拥 塞 时 会 看 到 
更 多 的 延展 。 互 联网 编号 分 配 机 构 CANA) 跟踪 所 有 被 定义 为 TCP 《和 许多 其 他 互联 网 
协议 ) 的 选项 。 大 约 有 30 个 TCP 的 选项 是 在 编写 的 时 候 定义 的 《尽管 大 部 分 是 实验 性 的 
或 过 时 的 ) 。 请 参阅 在 本 章 末尾 参考 资料 中 IANA 注册 协议 编号 的 链接 。 











5.2.9 性 能 


回忆 在 第 1 章 介绍 的 评估 网 络 性 能 的 两 个 度量 标准 : 时 延 和 吞吐 量 。 正 如 在 那个 讨论 
中 提 到 的 ， 这 些 度量 值 不 仅 受 底层 硬件 的 影响 (例如 传播 延迟 和 链 路 的 带宽 )， 而 且 还 受 
软件 开销 的 影响 。 现 在 我 们 有 一 个 完整 的 基于 软件 的 协议 图 ， 它 包含 可 供 选 择 的 传输 协 
议 ， 我 们 可 以 讨论 如 何 有 效 地 测量 它 的 性 能 。 这 种 测量 的 重要 性 在 于 它们 代表 了 应 用 程序 
所 看 到 的 性 能 。 | 

我 们 按照 实验 结论 报告 的 方式 开始 描述 实验 方法 ， 包 括 实 验 中 用 到 的 设备 。 我 们 的 实 
验 设备 为 : 每 个 工作 站 双核 CPU, 2.4GHz Xeon 处 理 器 ，Linux 操作 系统 。 为 了 使 速度 
达到 1Gbps 以 上 ， 每 台 机 器 使 用 一 对 以 太 网 适配器 〈 标 记 的 网 卡 ， 用 于 网 络 接口 卡 ) A 
太 网 的 跨度 是 一 个 机 房 ， 所 以 传播 不 是 问题 ， 这 使 本 实验 只 测量 处 理 器 /软件 的 开销 。 一 
个 运行 在 套 接 字 接口 上 的 测试 程序 只 是 简单 地 尝试 尽快 发 消息 。 图 5-11 说 明了 该 实验 的 
设置 。 \ | 
你 可 能 注意 到 ， 由 于 硬件 、 连 接 速度 和 操作 系统 的 原因 ， 该 实验 设置 并 不 理想 。 本 节 
的 重点 不 是 演示 一 个 特定 协议 能 够 运行 得 多 快 ， 而 是 描述 测量 和 报告 协议 性 能 的 通用 
方法 。 

对 不 同 大 小 的 消息 使 用 称 为 TTCP 的 基准 测试 工具 进行 吞吐 量 测 试 。 吞 吐 量 测试 的 结 
果 如 图 5-12 所 示 。 在 这 个 图 中 要 注意 的 关键 事情 是 ， 吞 吐 量 随 报 文 长 度 的 增加 而 增加 。 
这 是 讲 得 通 的 ， 因 为 每 个 报 文 包含 一 定 的 开销 ， 所 以 较 大 的 报 文章 味 着 将 这 个 开销 分 挫 到 
更 多 的 字 节 上 。 吞 叶 量 曲线 在 大 约 1KB 的 位 置 变 平 ， 从 这 一 点 开始 ， 每 个 报 文 的 开销 与 
协议 栈 处 理 的 大 量 字 节 相 比 变 得 无 关 紧 要 。 
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图 5-11 测试 系统 : 两 个 Linux 工作 站 图 5-12 对 不 同 报 文 长 度 ， 用 TCP 


和 一 对 Gbps 级 以 太 网 链 路 测量 的 吞吐 量 


值得 注意 的 是 ， 最 大 吞吐 量 小 于 2Gbps， 是 这 个 设置 中 的 有 效 链接 速度 。 对 结果 的 进 
一 步 测试 和 分 析 需 要 找 出 瓶颈 (或 者 是 否 有 多 个 因素 影响 )。 例 如 ，CPU 负载 指标 可 能 指 
出 瓶颈 是 CPU 还 是 内 存 带 宽 、 适 配器 性 能 或 者 其 他 问题 。 

我 们 同时 还 注意 到 在 这 个 测试 中 网 络 基本 上 是 “完美 ”的 。 基 本 上 没有 延 时 和 丢失 ， 
唯一 影响 性 能 的 就 是 TCP 的 实现 机 制 和 工作 站 的 软 硬 件 环境 。 相 比 之 下 ， 大 多 数 时 候 我 
们 应 对 的 是 不 够 完善 的 网 络 ， 特别 是 带宽 受 限 、 最 后 一 英里 连接 和 易 丢 包 的 无 线 连 接 。 在 
了 解 这 些 连接 如 何 影 响 TCP 性 能 之 前 ， 我 们 需要 理解 TCP 如 何 解决 拥塞 ， 这 正 是 6.3 节 
的 主题 。 | | 

自从 有 网 络 以 来 ， 网 络 链 路 的 增 速 已 经 无 数 次 影响 到 网 络 发 送 给 应 用 程序 的 数据 。 例 
如 ， 美 国 在 1989 年 启动 一 项 浩大 的 研究 工作 一 一 构建 千 兆 以 太 网 。 目 的 不 仅 是 使 链 路 和 
交换 机 速度 达到 甚至 超过 1Gbps， 而 是 希望 将 这 样 的 否 吐 量 直 接 传送 给 单个 应 用 程序 进 
程 。 这 遇 到 很 多 实际 的 问题 〈 比 如 ， 网 络 适 配器 、 工 作 站 的 体系 结构 以 及 操作 系统 都 必须 
在 设计 时 考虑 到 网 络 应 用 程序 的 吞吐 量 ) ， 同 时 证 明了 很 多 难题 也 没 那么 复杂 。 所 有 问题 
中 最 让 人 关心 的 是 现存 的 传输 协议 ， 特 别 是 TCP 可 能 达 不 到 千 兆 位 操作 ，。 

事实 证 明 ，TCP 紧 跟 高 速 网 络 和 应 用 不 断 增加 的 需求 ， 为 解决 高 带宽 延迟 积 而 引入 
滑动 窗口 就 是 一 个 重要 的 例子 。 不 过 ，TCP 的 理论 性 能 和 实际 表现 还 是 有 很 大 差异 。 简 
单 的 问题 也 会 导致 性 能 降低 ， 比 如 数据 从 网 络 适配器 传送 到 应 用 程序 的 过 程 中 多 次 不 必要 
地 复制 数据 ， 又 如 当 带 宽 延 迟 积 很 大 时 缓存 空间 不 足 。 同 时 ，TCP 的 动态 变化 也 很 复杂 
(在 下 一 章 会 更 加 明显 )。 网 络 行为 和 应 用 行为 中 微小 的 相互 作用 以 及 TCP 协议 自身 原因 
都 能 使 其 突然 改变 性 能 。 

对 于 我 们 的 目的 来 说 ，TCP 在 网 速 增加 的 同时 表现 良好 这 一 点 应 该 引起 注意 。 当 
TCP 遇 到 一 些 限 制 时 〈 正 常 来 说 是 拥塞 、 增 加 的 带宽 延迟 积 或 者 两 者 都 有 )， 研 究 者 急于 
找到 解决 方案 。 我 们 在 本 章 已 经 探讨 过 其 中 的 一 些 ， 在 下 一 章 我 们 会 研究 更 多 方案 。 


其 他 设计 选择 
尽管 已 经 证 明 TCP 是 一 个 健壮 的 协议 ， 能 够 满足 广泛 的 应 用 需要 ， 但 传输 协议 的 设 
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计 空 间 是 相当 大 的 。 在 此 设计 空间 上 ，TCP 绝 不 是 唯一 的 有 效 选 择 ， 我 们 通过 考查 另 一 
些 设 计 选 择 来 结束 对 TCP 的 讨论 。 虽 然 对 TCP 的 设计 者 为 什么 做 这 些 选 择 给 出 了 解释 ， 
但 我 们 要 观察 针对 另 一 些 选 择 而 设计 的 传输 协议 和 未 来 可 能 出 现 的 传输 协议 。 

第 一 ， 本 书 的 第 1 章 就 提出 ， 至 少 有 两 类 令 人 感 兴 趣 的 传输 协议 像 TCP 一 样 的 面 
回流 的 协议 和 像 RPC 一 样 的 请 求 / 应 答 协 议 。 换 句 话 说， 我们 已 经 隐 含 地 将 设计 空间 分 为 
两 半 且 将 TCP 放 在 面向 流 的 那 一 半 。 我 们 可 以 进一步 将 面向 流 的 协议 分 为 两 组 ， 可靠 的 
和 不 可 靠 的 。 前 者 包括 TCP， 后 者 更 适 于 交互 式 的 视频 应 用 ， 它 宁可 丢弃 帧 也 不 引发 与 重 
传 相关 的 延迟 。 

建立 传输 协议 分 类 学 是 非常 有 趣 的 ， 并 可 以 继续 越 分 越 细 ,但 世界 并 不 是 我 们 喜欢 的 
那样 黑 日 分明 。 例 如 ， 考 虑 TCP 作为 传输 协议 对 请 求 /应 答应 用 的 适用 性 。TCP 是 一 个 全 
双 工 的 协议 ， 所 以 很 容易 打开 客户 端 和 服务 器 间 的 TCP 连接 ， 在 一 个 方向 发 送 请 求 消息 ， 
而 在 夯 一 个 方向 发 送 应 答 消 息 。 然 而 ， 存 在 两 种 复杂 情况 。 第 一 种 情况 是 TCP 为 面向 字 
节 (byte) 的 协议 而 不 是 面向 数据 报 (message) 的 协议 ， 但 请 求 / 应 答应 用 总 是 处 理 报 
文 。( 我 们 马上 就 仔细 探讨 字 节 和 数据 报 的 问题 .) 第 二 种 情况 是 ， 在 请 求 消 息 和 应 答 消 息 
都 能 包含 在 一 个 网 络 分 组 中 的 情况 下 ， 一 个 设计 良好 的 请 求 /应 答 协 议 仪 需要 两 个 分 组 来 
完成 交换 ， 而 TCP 至 少 需要 9 个 分 组 ， 其 中 3 个 用 于 建立 连接 ，2 个 用 于 消息 交换 ，4 个 
”用 于 断 开 连接 。 当 然 ， 如 果 请 求 和 应 答 消 息 大 到 足以 需要 多 个 网 络 分 组 〈 例 如 ， 需 要 用 
100 个 分 组 来 发 送 100 000 字 节 的 应 答 消 息 ) ， 那 么 建立 和 上 断 开 连接 的 开销 就 无 关 紧 要 了 。 
换 句 话说 ， 并 不 总 是 某 个 协议 不 能 文 持 某 一 特定 功能 这 样 一 种 情况 ， 而 有 时 是 在 特定 情况 
下 某 种 设计 比 另 一 种 设计 更 有 歼 。 

第 二 ， 正 如 刚 提 到 的 ， 你 可 能 会 问 为 什么 TCP 选择 提供 可 靠 的 字 节 (byte) 流 服 务 ， 
而 不 提供 可 靠 的 数据 报 Cmessage) 服务 ， 数 据 报 应 该 是 要 进行 记录 交换 的 数据 库 应 用 的 
自然 选择 。 对 这 个 问题 有 两 个 答案 。 第 一 个 是 ， 面 回 数据 报 的 协议 必须 通过 定义 确立 一 个 
报 文 的 长 度 上 界 。 毕 竟 ， 一 个 无 限 长 的 报 文 就 是 一 个 字 市 流 。 但 是 对 于 协议 选择 的 任何 一 
个 长 度 上 界 ， 总 会 有 某 个 应 用 程序 想 要 发 送 更 大 的 报 文 ， 使 得 传输 协议 无 用 ， 并 且 人 迫使 应 
用 程序 实现 它 自 己 的 类 似 传 输 的 服务 。 第 二 个 是 ， 虽 然 面 回 数 据 报 的 协议 显然 更 适用 于 彼 
此 间 要 发 送 记录 的 应 用 ， 但 它 可 以 很 容易 地 在 字 节 流 中 插入 记录 边界 来 实现 这 一 功能 ， 如 
5. 2.7 节 所 述 。 

在 TCP 设计 中 做 出 的 第 三 个 决定 就 是 应 用 程序 按 序 传输 字 市 流 。 这 意味 着 ， 它 可 以 
从 网 络 中 接收 乱 序 字 节 流 ， 等 待 补 齐 丢 失 的 字 市 。 这 对 于 很 多 应 用 很 有 帮助 ， 但 对 于 能 够 
自己 处 理 乱 序 字 节 的 应 用 就 没 多 大 用 处 。 举 个 简单 的 例子 ， 包 售 多 个 般 入 图 像 的 网 页 不 需 
要 在 所 有 图 像 按 序 收 到 后 才 开 始 显示 在 页 面 上 。 还 有 一 类 应 用 希望 在 应 用 层 来 处 理 乱 序数 
据 ， 以 便当 分 组 丢失 或 乱 序 时 更 快 地 获取 数据 。 为 文 持 这 些 应 用 而 产生 了 另 一 种 ETF 标 
准 传输 协议 ， 如 流 控制 传输 协议 (Stream Control Transmission Protocol, SCTP), SCTP 
协议 提供 部 分 有 序 传输 服务 ， 而 不 是 严格 有 序 的 传输 服务 。 (SCTP 还 有 一 些 与 TCP RA 
的 设计 决策 ， 包 括 消息 定向 和 单一 会 话 文 持 多 IP 地址 。 详 见 “ 扩 展 阅 读 ”。) 

第 四 ，TCP 选择 实现 显 式 的 建立 / 断 开 阶段 ， 但 这 不 是 必需 的 。 对 建立 连接 来 说 ， 它 
显然 可 以 与 第 一 个 数据 消息 一 起 发 送 全 部 必要 的 连接 参数 。TCP 之 所 以 选择 更 保守 的 方 
法 是 要 让 接收 方 在 任何 数据 到 达 之 前 有 机 会 拒绝 连接 。 对 于 断 开 连接 来 说 ， 虽 能 简单 地 关 
闭 一 个 很 长 一 段 时 间 不 活动 的 连接 ， 但 这 对 像 Telnet 那样 一 次 连接 要 保持 几 个 星期 的 应 
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最 后 ，TCP 是 一 个 基于 窗口 的 协议 ,但 这 不 是 唯一 的 可 能 性 。 可 供 选 择 的 有 基于 迷 
Æ (rate-based) 的 设计 ， 接 收 方 通知 发 送 方 愿意 接收 的 输入 数据 的 速率 ， 速 率 用 每 秒 字 
方 数 或 分 组 数 表示 。 例 如 ， 接 收 方 可 能 通知 发 送 方 它 每 秒 能 处 理 100 个 分 组 。 在 窗口 和 速 
率 间 存在 一 个 有 趣 的 对 偶 性 ， 因 为 窗口 中 的 分 组 〈 字 节 ) 数 除 以 RTT 恰好 就 是 速率 。 例 
如 ， 一 个 10 个 分 组 长 的 窗口 大 小 和 一 个 100 ms 的 RTT 意味 着 允许 发 送 方 以 每 秒 传输 100 
个 分 组 的 速率 传送 。 通 过 增 大 或 减 小 窗口 的 尺寸 ， 接 收 方 能 有 效 地 提高 和 降低 发 送 方 的 传 
输 速 率 。 在 TCP 中 ， 这 个 信息 在 每 个 数据 段 的 ACK 的 AdvertisedWindow 字段 中 被 反馈 
给 发 送 方 。 基 于 速率 的 协议 的 关键 问题 之 一 是 每 隔 多 久 将 期 望 的 速率 (一 段 时 间 后 可 能 改 
AB) 传达 给 源 主机 : 是 对 每 个 分 组 或 每 隔 一 个 RTT 回 送 ， 还 是 仅 当 速率 改变 时 回 送 ? 刚 
才 虽 然 在 流量 控制 的 环境 中 讨论 了 窗口 和 速率 ,但 在 第 6 章 将 要 讨论 的 拥塞 控制 环境 下 它 
们 将 是 一 个 更 有 争议 的 问题 。 


5.3 ”远程 过 程 调用 
正如 在 第 1 章 中 所 讨论 的 ， 应 用 程序 使 用 的 通用 通信 模式 是 请 求 /应 答 模式 ， 也 称 为 





消息 事务 :客户 端 向 服务 器 发 送 一 条 请 求 消息 ， 服 务 器 用 一 。 gm 服务 器 

条 应 答 消 息 响应 ， 而 客户 端 阻塞 〈 挂 起 执行 等 待 这 个 应 | ma 

答 。 图 5-13 说 明了 在 这 样 的 消息 事务 中 客户 端 和 服务 器 的 基 OO 

本 交互 活动 ， Ea | is 
支持 请 求 /应 答 模式 的 传输 协议 不 只 是 在 一 个 方向 上 传 ”县 一 一 


递 UDP 报 文 ， 在 另 一 个 方向 上 也 传递 UDP 报 文 。 它 需要 正 | | B2 
确 处 理 在 远程 主机 上 的 标识 进程 ， 并 建立 起 请 求 和 应 答 之 间 | 

的 联系 。 它 还 要 克服 本 章 开 始 的 问题 中 概述 的 底层 网 络 的 所 图 5-13 RPC 的 时 间 线 
有 限制 。 虽 然 TCP 通过 提供 一 个 可 靠 的 字 节 流 服务 克服 了 这 些 限 制 ， 但 它 也 不 能 很 好 地 
配合 请 求 /应 答 模式 ， 因 为 只 为 交换 一 对 消息 就 要 创建 TCP 连接 看 起 来 似乎 矫 枉 过 正 。 本 
节 描 述 第 三 种 传输 协议 ， 称 为 远程 过 程 调用 (Remote Procedure Call，RPC) ， 它 与 涉及 
请 求 /应 答 报 文 交换 的 应 用 的 需求 更 匹配 。 


5.3.1 RPC 基础 


实际 上 RPC 不 仅仅 是 一 个 协议 ， 它 是 构造 分 布 式 系统 的 一 种 流行 机 制 。RPC 之 所 以 
流行 ， 是 因为 它 基 于 本 地 过 程 调用 语义 ,应 用 程序 首先 调用 一 个 过 程 ， 不 管 它 是 本 地 调用 
还 是 远程 调用 ， 接 着 阻塞 直到 调用 返回 结果 。 应 用 程序 开发 者 可 能 没有 意识 到 调用 是 本 地 
的 还 是 远程 的 ， 因 此 任务 被 大 大 简化 了 。 在 面向 对 象 的 语言 中 ， 当 调用 过 程 是 远程 对 象 方 
法 时 ，RPC 被 认为 是 远程 方法 范例 〈(RMI) 。 昌 然 这 听 起 来 可 能 比较 简单 ， 但 有 两 个 主要 
问题 使 得 RPC 比 本 地 过 程 调用 更 复杂 

。 调用 进程 和 被 调用 进程 间 的 网 络 比 一 台 计 算 机 的 情况 有 更 复杂 的 特性 。 例 如 ， 它 

可 能 限制 消息 的 大 小 ， 并 且 有 丢失 和 重 排 消 息 的 可 能 。 
。 运行 调用 和 被 调用 进程 的 计算 机 可 能 有 明显 不 同 的 体系 结构 和 数据 表示 格式 
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这 样 ， 一 个 完整 的 RPC 机 制 实际 上 包含 两 个 主要 部 分 ; 

1) 协议 ， 用 于 管理 客户 端 与 服务 器 进程 之 间 发 送 的 消息 以 及 处 理 底 层 网 络 的 潜在 不 
合理 特性 。 | | 

2) 编程 语言 和 编译 程序 ， 它 支持 在 客户 端 把 参数 封装 进 一 个 请 求 报 文 ， 并 在 服务 器 
上 把 报 文 翻译 成 原来 的 参数 ， 对 返回 值 也 能 做 类 似 的 处 理 (RPC 机 制 中 的 这 部 分 通常 称 为 
桩 编译 器 (stub compiler) ) 。 

图 5-14 描述 了 当 一 个 客户 端 调用 一 个 远程 过 程 时 发 生 的 事情 。 首 先 ， 客 户 端 调用 过 
程 的 本 地 桩 ， 并 把 过 程 需要 的 参数 传递 给 它 。 桩 把 参数 翻译 为 一 个 请 求 消息 ， 接 着 调用 
RPC 协议 把 这 个 请 求 消息 发 送 给 服务 器 ， 这 样 桩 隐藏 了 过 程 是 在 远 端的 事实 。 在 服务 器 
端 ，RPC 协议 把 这 个 请 求 消息 传递 给 服务 器 桩 〈 有 时 称 为 框架 〈skeleton))， 由 它 负 责 把 
消息 翻译 为 过 程 的 参数 并 调用 本 地 过 程 。 服 务 器 过 程 完成 后 ， 它 把 执行 结果 送 给 服务 器 
桩 ， 服 务 器 桩 将 结果 封装 到 应 答 消 息 中 ， 并 把 它 原封 不 动 地 送 到 RPC 协议 以 便 发 送 回 客 
户 端 。 客 户 端的 RPC 协议 将 收 到 的 消息 上 传 给 客户 端 桩 ， 客 户 端 柱 将 消息 翻译 成 返回 值 
送 给 客户 端 程序 。 








图 5-14 完整 的 RPC 机 制 


本 节 只 考虑 RPC 机 制 与 协议 相关 的 方面 。 也 就 是 说 ， 和 忽略 桩 而 着 眼 于 客户 端 和 服务 
器 之 间 传 送 消息 的 RPC 协议 ， 有 时 叫 请 求 / 应 答 协 议 。 参 数 和 消息 之 间 的 相互 转换 将 在 第 
7 EME. 

由 于 RPC 这 个 术语 只 是 指 一 类 协议 ， 而 不 是 像 TCP 那样 是 一 个 特定 的 标准 ， 因 此 
RPC 协议 会 随 它 所 执行 的 功能 而 有 所 不 同 。TCP 是 可 靠 的 字 市 流 协 议 ， 而 RPC 不 是 ， 没 
有 一 个 绝对 可 靠 的 RPC 协议。 因此， 本 节 将 讨论 不 同 于 前 面 的 其 他 设计 选择 。 

1. RPC 中 的 标识 符 

任何 RPC 协议 必须 执行 两 个 功能 : 

。 提供 一 个 命名 空间 来 唯一 标识 被 调用 的 过 程 。 


。 将 每 一 个 应 答 报 文 与 请 求 报 文 相 匹 配 。 

第 一 个 问题 类 似 于 在 网 络 中 识别 节点 的 问题 ， 正 如 在 前 面 章节 中 所 介绍 的 一 样 (例如 
第 4 章 中 的 IP 地 址 )。 进 行 识别 的 一 种 设计 选择 是 命名 空间 是 扁平 的 还 是 分 层 的 。 扁 平 的 
命名 空间 仅仅 为 每 个 过 程 分 配 一 个 唯一 的 、 无 结构 的 标识 符 ( 例 如 一 个 整数 )， 这 个 数字 
标识 符 被 装载 到 RPC 请 求 报 文 的 一 个 字段 中 。 这 就 需要 一 个 中 心 协调 者 以 避免 为 两 个 不 
同 的 过 程 指派 相同 的 过 程 标识 符 。 此 外 ， 协 议 也 可 以 实现 一 个 分 层 的 命名 空间 ， 类 似 于 文 
件 路 径 名 ， 只 需要 在 同一 个 文件 目录 下 具有 唯一 的 文件 名 即 可 。 这 种 方法 简化 了 过 程 命 
”名 ， 能 够 确保 过 程 名 的 唯一 性 。RPC 分 层 的 名 字 空 间 可 以 通过 在 请 求 报 文中 定义 一 组 字段 
来 实现 ， 在 两 层 或 三 层 的 命名 空间 中 每 层 都 有 一 个 名 字 。 

将 应 答 报 文 与 请 求 报 文 匹配 的 关键 是 使 用 报 文 ID 字段 来 识别 请 求 -应 答对 。 应 答 报 文 
”的 ID 字段 与 请 求 报 文 的 ID 字段 具有 相同 的 值 。 当 客户 端 RPC 模块 收 到 应 答 报 文 时 ， 它 

使 用 报 文 ID 来 搜索 相应 的 请 求 。 为 了 使 RPC 事务 对 调用 者 来 说 像 本 地 过 程 调用 一 样 ， 在 

收 到 应 答 报 文 前 调用 者 被 阻塞 (例如 使 用 信号 量 )。 接 收 到 应 答 报 文 时 ， 基 于 应 答 报 文中 
的 请 求 号 来 识别 被 阻塞 的 调用 者 ， 从 应 答 报 文中 获取 远程 过 程 的 返回 值 ， 将 调用 者 解除 阻 
塞 ， 以 便 它 能 返回 值 。 

RPC 中 的 另 一 个 挑战 是 处 理 非 预期 的 响应 ， 这 是 和 报 文 ID 相关 联 的 。 例 如 ， 考 
虑 下 面 的 实际 情况 ， 客 户 端 发 送 报 文 ID 为 0 的 请 求 报 文 ， 之 后 死机 并 重启 ， 然 后 发 
送 另 一 个 报 文 ID 也 为 0 的 不 相关 报 文 。 服 务 器 不 可 能 知道 客户 机 死机 并 重启 了 ， 因 
此 它 收 到 报 文 ID 为 0 的 重复 报 文 后 将 其 丢弃 ， 于 是 客户 端 就 不 可 能 收 到 对 于 第 二 个 
请 求 的 响应 。 | 

解决 该 问题 的 一 种 方法 是 使 用 启动 ID (boot ID) 。 机 器 的 启动 ID 是 数字 ， 每 次 机 
器 重新 启动 后 它 会 增加 ， 启 动 后 从 非 易 失 性 存储 设备 〈 如 磁盘 或 闪存 驱动 器 ) 中 读 取 
该 ID 号 ， 增 加 其 值 ， 然 后 在 启动 过 程 中 写 回 到 存储 设备 中 ， 之 后 该 ID 号 会 被 放 在 该 
主机 所 发 送 的 每 一 个 报 文中 。 如 果 一 个 报 文具 有 旧 的 报 文 ID 但 却 有 新 的 启动 DD， 则 
会 被 识别 为 一 个 新 的 报 文 。 这 样 ， 报 文 ID 和 启动 ID 组 合 起 来 构成 了 每 一 个 事务 的 唯 
— ID, . | 








RPC 位 于 哪 一 层 ? | 

“这 是 哪 一 层 ” 的 问题 再 次 显露 出 来 。 对 很 多 人 来 说 ， 特 别 是 那些 持 协 议 体系 结构 应 
该 严格 分 层 观 点 的 人 ，RPC 是 在 传输 层 协 议 (通常 是 UDP) 之 上 实现 的 ， 所 以 它 自己 
《按照 定义 ) 不 能 算是 一 个 传输 层 协议 。 但 是 因特网 需要 有 RPC 协议 ， 因 为 它 提 供 了 一 个 
与 TCP 和 UDP 所 提供 的 服务 根本 不 同 的 进程 到 进程 的 服务 。 然 而 ， 对 这 一 建议 通常 的 反 
应 是 因 符 网 体系 结构 并 不 禁止 网 络 设计 人 员 在 UDP 之 上 实现 他 们 自己 的 RPC 协议 。 不 管 
因特网 是 否 应 该 具有 你 所 支持 的 RPC 协议 ， 重 要 的 是 在 因特网 体系 结构 上 实现 RPC 的 方 
法 与 RPC 是 否 是 一 个 传输 层 协 议 无 关 。 

有 趣 的 是 ， 为 有 一 些 人 认为 RPC 是 世界 上 最 有 意义 的 协议 ， 而 TCP/IP 只 不 过 是 当 你 想 
到 “脱离 站 点 ”时 才 做 的 事 。 这 是 操作 系统 领域 中 的 主流 观点 ， 人 们 已 经 构造 了 无 数 分 布 式 
系统 的 操作 系统 内 核 ， 这 些 系统 只 包含 一 个 运行 在 网 络 设备 驱动 程序 之 上 的 协议 一 一 你 可 以 
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猜 到 就 是 RPC 协议 。 

我 们 的 观点 是 ， 任 何 提供 进程 到 进 程 服务 而 不 是 节点 到 节点 或 主机 到 主机 服务 的 协 
议 ， 都 可 称 作 传输 层 协 议 。 这 样 ，RPC 就 是 一 个 传输 层 协 议 ， 但 它 可 以 在 其 他 传输 层 协议 
ZER He 


2. 克服 网 络 局 限 性 | 
RPC 协议 通 第 执行 额外 的 功能 来 应 对 网 络 信 道 不 顺畅 的 情况 ， 两 个 主要 功能 是 
。 提供 可 靠 报 文 传输 机 制 。 

。 通过 分 片 和 重组 支持 大 尺寸 的 报 文 。 

RPC 协议 需要 提供 可 徘 性 ， 因 为 其 下 层 协议 (例如 UDP/IP) 没有 提供 可 靠 性 ,或许 
不 要 快速 或 有 效 地 从 故障 中 恢复 ， 否 则 故障 最 终 会 由 下 层 协 议 修 m 
复 。 RPC 协议 通过 类 似 于 TCP 中 的 确认 和 超时 机 制 来 实现 可 靠 — tip | 
性 ， 其 基本 的 算法 很 直观 ， 如 图 5-15 所 示 。 客 户 机 发 送 一 个 请 一 | 
求 报 文 ， 服 务 器 对 其 进行 确认 ， 过 程 执行 完 后 ， 服 务 器 发 送 一 个 一 
应 答 报 文 ， 客 户 机 对 该 应 答 进行 确认 。 | 

承载 数据 (请 求 报 文 或 应 答 报 文 ) 或 ACK AA) 的 报 文 
在 网 络 中 可 能 会 丢失 ， 为 了 应 对 这 种 可 能 性 ， 客 户 端 和 服务 顺 对 
它们 所 发 送 的 每 一 个 报 文 都 会 保留 一 份 副 本 ， 直 到 与 其 相应 的 
ACK 已 经 收 到 。 每 一 方 也 都 会 维持 一 个 RETRANSMIT ( 重 传 ) 
”定时 器 ， 超 时 后 就 重 传 报 文 。 在 放弃 和 释放 报 文 之 前 双方 会 重新 ”图 5-15 可 靠 RPC 协议 
局 动 定 时 需 并 再 一 次 协商 定时 需 的 取信 。 的 简单 时 间 线 

如 果 RPC 客户 端 收 到 了 一 个 应 答 报 文 ， 那么 服务 器 一 定 已 经 收 到 了 相应 的 请 求 报 
文 ， 因 此 应 答 报 文本 身 就 是 一 个 隐 式 的 确认 ， 无 需 服 务 器 再 专门 发 送 确认 报 文 。 类 似 
地 ， 请 求 报 文 可 以 隐 式 地 确认 先前 的 应 答 报 文 一 -假设 协议 要 求 请 求 -应 答 事务 是 连续 
的 ， 即 一 个 事务 在 下 一 个 事务 开始 之 前 必须 已 经 完成 。 不 幸 的 是 ， 这 种 连续 性 会 严重 限 
制 RPC 的 性 能 。 

对 于 RPC 协议 来 说 ， 摆 脱 这 种 困境 的 一 种 方法 是 使 用 信道 (channel) 抽象 。 在 一 
个 给 定 的 信道 中 ， 请 求 / 应 答 事务 是 连续 的 《〈 在 给 定 信 道 的 某 一 时 刻 只 有 一 个 事务 是 活 
跃 的 ) ， 但 同时 可 以 有 多 个 信道 。 每 个 报 文 包含 一 个 信道 ve py 服务 器 
ID 字段 来 指明 其 所 属 的 信道 。 如 果 先 前 未 被 确认 过 的 话 ， | | 
则 在 给 定 信 道中 的 一 个 请 求 报 文 隐 式 地 确认 该 信道 中 先前 
的 应 答 报 文 。 如 果 应 用 程序 同时 有 多 a cane 
BE RRS tr 30 A ATS (应 用 程序 有 多 个 线程 );， 那 么 
以 打开 和 服务 絮 之 间 的 多 个 信道 。 如 图 5-16 所 示 ， a 
报 文 对 请 求 报 文 进行 确认 ， 接 下 来 的 请 求 报 文 对 先前 的 应 
答 报 文 进 行 确认 。 注 意 ， 这 里 我 们 看 到 了 称 为 并 发 逻辑 信 
道 的 类 似 方法 ， 在 2.5. 3 节 中 该 方法 用 于 改善 停止 -等 待 
可 靠 传输 机 制 的 性 能 。 图 5-16 ”使 用 隐 式 确认 的 可 靠 

RPC 必须 考虑 的 男 一 个 复杂 问题 是 服务 絮 可 能 千 要 伦 RPC 协议 的 时 间 线 


客户 服务 带 
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溃 。 这 里 所 说 的 时 间 段 是 在 服务 器 对 请 求 发 送 了 确认 之 后 ， 但 在 发 送 应 答 之 前 。 为 了 使 客 
户 端 能 够 对 啊 应 慢 的 服务 器 和 已 死机 的 服务 需 进 行 区 分 ，RPC 客户 症 周 期 性 地 向 服务 磊 发 
KK REWIR?” Roc. ARS ASA ACK 对 该 报 文 进 行 响 应 。 另 一 种 办 法 是 ， 服 务 器 问 
客户 端 发 送 “ 我 仍然 活路 着 ” 报 文 ， 而 无 需 客户 端 首先 发 送 报 文 。 客 户 问 站 和 完 发 出 询问 的 
方法 具有 更 好 的 扩展 性 ， 因 为 它 把 该 任务 (管理 定时 器 〉 放 在 了 客户 端 。 

RPC 的 可 靠 性 包括 最 多 一 次 语义 (at-most-once semantics)。 这 意味 着 对 于 客户 并 
发 送 的 每 个 请 求 报 文 ， 最 多 只 有 一 个 报 文 副 本 被 传递 到 服务 器 。 客 户 端 每 次 调用 远程 
过 程 时 ， 服 务 器 上 的 过 程 最 多 被 调用 一 次 。 我 们 说 “最 多 一 次 ”而 不 是 “正好 一 次 ”， 
因为 总 有 可 能 网 络 或 者 服务 器 出 故障 ， 这 时 即使 传递 请 求 报 文 的 一 个 副本 也 是 不 可 
能 的 。 

为 了 实现 最 多 一 次 语义 ，RPC 服务 器 端 必 须 识 别 重复 请 求 并 忽略 之 ， 因 此 它 必 须 维 护 
一 些 识别 先前 请 求 的 状态 信息 。 一 种 方法 是 使 用 序列 号 识别 请 求 ， 这 样 服务 郝 只 要 记 住 最 
近 的 序列 号 就 可 以 了 。 不 地 的 是 ， 这 样 就 限制 了 RPC 同时 只 能 给 一 个 服务 圳 发 送 一 个 请 
求 ， 因 为 在 带 有 下 一 个 序列 号 的 请 求 被 传输 之 前 先前 的 请 求 必 须 已 经 完成 。 信 道 提 供 了 一 
种 解决 办 法 ， 通 过 记 住 每 个 信道 的 当前 序列 号 ， 服 务 器 能 够 识别 重复 的 请 求 ， 而 不 必 限 制 
客户 端 同时 只 能 发 送 一 个 请 求 。 | 

正如 “最 多 一 次 ”上 听 超 来 一 样 明显 ， 并 不 是 所 有 RPC 协议 都 文 持 这 种 行为 。 一 些 协 
WBN RAR SR (zero-or-more) 语义 ， 也 就 是 说 ， 客 户 端 的 每 次 调用 导致 远程 
过 程 被 调用 零 次 或 多 次 。 不 难 理解 ， 这 种 方式 会 引起 问题 ， 因 为 远程 过 程 的 每 次 调用 都 可 
能 会 改变 一 些 本 地 的 状态 变量 (例如 ， 增 加 计数 器 的 值 ) 或 造成 外 部 可 见 的 副作用 Chi) 
如 ， 发 射 一 枚 导弹 )。 另 一 方面 ， 如 果 远 程 过 程 的 调用 是 敌 等 (idempotent) 的 ， 即 多 次 
调用 产生 的 效果 和 一 次 调用 一 样 ， 那 么 RPC 机 制 就 不 必 支 持 最 多 一 次 语义 ， 用 一 个 更 简 
单 〈 可 能 更 快速 ) 的 实现 就 足够 了 。 

作为 可 靠 传 输 协议 ，RPC 需要 实现 报 文 分 片 和 重组 有 两 个 原因 : 一 是 下 层 协议 栈 没有 
提供 该 功能 ; 二 是 通过 RPC 协议 来 实现 该 功能 会 更 有 效 。 考 虑 RPC 在 UDP/IP 之 上 依赖 
于 IP 实现 分 片 和 重组 的 情况 ， 如 果 在 特定 的 时 间 段 内 报 文 的 一 个 分 片 传输 失败 ， 那 么 IP 
丢弃 该 报 文 的 所 有 分 片 ， 从 而 造成 该 报 文 的 丢失 ， 最 终 RPC 协议 〈 假 设 它 实 现 了 可 靠 性 ) 
发 生 超 时 并 重 传 该 报 文 。 与 此 相反 ， 考 虑 RPC 协议 自身 实现 分 片 和 重组 的 情况 ， 每 个 分 
片 都 有 各 自 的 ACK (确认 ) w NACK (否认 )， 丢 失 的 分 片 会 被 更 快 地 检测 到 并 重 传 ， 这 
样 就 只 有 丢失 的 分 片 需要 重 传 ， 而 不 必 重 传 整 个 报 文 。 

3. 同步 协议 与 异步 协议 

描绘 协议 特性 的 一 种 方式 是 说 明 它 是 同步 的 (synchronous) 还 是 异步 的 〈asyn- 
chronous)。 这 两 个 术语 的 具体 含义 依赖 于 它们 用 于 协议 层次 结构 中 的 哪 一 层 。 在 传输 层 ， 
最 好 将 它们 看 成 是 一 些 可 能 性 的 范围 ， 而 不 是 两 种 可 能 性 之 一 ， 这 些 可 能 性 中 的 任意 一 个 
的 关键 属性 是 发 送 报 文 的 操作 返回 后 ， 发 送 方 知道 多 少 信息 。 换 句 话说， 如果 假设 一 个 应 
用 程序 调用 了 传输 协议 上 的 send 操作 ， 那 么 问题 是 ，send 操作 返回 时 ， 应 用 程序 对 操作 
是 否 成 功 知 道 多 少 ? | 
在 这 个 范围 的 异步 一 端 ， 当 send 操作 返回 时 ， 应 用 程序 绝对 不 知道 任何 事情 。 它 不 
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仅 不 知道 报 文 是 否 被 对 等 方 接收 ， 甚 至 不 能 确切 知道 报 文 是 否 成 功 地 离开 本 地 机 器 。 在 这 
个 范围 的 同步 一 端 ，send 操作 通常 返回 一 个 应 答 报 文 。 也 就 是 说 ， 应 用 程序 不 仅 知道 发 送 
的 报 文 被 对 等 方 接收 ， 而 且 知 道 对 等 方 返回 一 个 应 答 。 这 样 ， 同 步 协 议 实 现 了 请 求 /应 答 
的 抽象 ， 而 如 果 发 送 方 想 要 传输 很 多 报 文 而 不 必 等 待 响 应 ， 则 使 用 异步 协议 。 应 用 这 个 定 
X, RPC 协议 显然 是 一 个 同步 协议 ， | 

在 这 两 个 极端 间 存 在 一 些 值得 注意 的 问题 ， 尽 管 在 本 章 我 们 没有 讨论 它们 。 例 如 ， 
传输 协议 可 以 实现 send 后 阻塞 〈 不 返回 ) ， 直 到 报 文成 功 地 被 远程 机 器 接收 ， 但 在 发 送 
方 的 对 等 方 实际 处 理 完 毕 并 响应 之 前 返回 。 有 时 这 称 为 可 靠 数据 报 协 议 (reliable data- 


gram protocol) 。 





5.3.2 RPC 实现 (SunRPC, DCE) 


现在 讨论 RPC 协议 实现 的 例子 ， 这 将 突出 协议 设计 者 的 不 同 设计 决定 。 第 一 个 例子 
是 SunRPC， 这 是 一 个 被 广泛 使 用 的 RPC 协议 ， 也 称 为 开放 网 络 计算 RPC (Open Net- 
work Computing RPC，ONCRPC) 。 第 二 个 例子 是 DCE-RPC， 它 是 分 布 式 计算 环境 
(Distributed Computing Environment, DCE) 的 一 部 分 。DCE 是 构造 由 开放 软件 基金 会 
(Open Software Foundation, OSF) 定义 的 分 布 式 系统 的 一 套 标 准 和 软件 ，OSF 是 由 一 些 
计算 机 公司 组 成 的 联盟 ， 最 初 包括 IBM, DEC 和 HP 公司 ， 现 在 OSF 更 名 为 开放 组 
(The Open Group) 。 这 两 个 例子 在 RPC 解决 方案 中 非常 具有 代表 性 。 

1. SunRPC 

SunRPC 已 经 成 为 一 个 事实 上 的 标准 ， 这 得 益 于 它 与 Sun 工作 站 一 起 被 广泛 应 用 及 其 
在 流行 的 Sun 网络 文件 系统 (Network File System, NFS) 中 所 起 的 中 心 作 用 。IETF 3% 
纳 了 SunRPC， 将 其 作为 一 个 标准 的 因特网 协议 ， 命 名 在 ONC RPC ZF. 

SunRPC 在 多 个 不 同 的 传输 层 协 议 之 上 实现 ， 图 5-17 描述 了 在 
UDP 之 上 实现 SunRPC 的 协议 图 。 正 如 本 章 前 面 所 提 到 的 ， 严 格 的 
层次 结构 主义 者 可 能 会 反对 在 传输 层 协 议 之 上 运行 传输 层 协 议 的 想 
法 ， 或 者 会 因为 RPC 出 现在 传输 层 之 上 而 争论 RPC 不 是 传输 层 协 
议 。 然 而 ， 正 如 下 面 将 要 讨论 的 ， 将 RPC 运行 在 现 有 的 传输 层 之 上 
的 设计 决定 有 很 多 考虑 因素 。 

SunRPC 使 用 两 层 标识 符 来 识别 远程 过 程 : 一 个 32 位 的 程序 号 
和 一 个 32 位 的 过 程 号 (还 有 32 位 的 版 本 号 ， 在 下 面 的 讨论 中 我 们 
BEAM). Bla, NFS 服务 器 已 经 被 赋予 程序 号 x00100003， 在 
这 个 程序 中 ，getattr 是 过 程 1， setattr 是 过 程 2，read 是 过 程 6， 
write 是 过 程 8， 等 等 。 程 序号 和 过 程 号 被 放置 在 SunRPC 请 求 报 文 
的 首部 来 传输 ， 其 首部 字段 如 图 5-18 所 示 。 对 于 调用 特定 程序 的 特定 过 程 而 言 ， 文 持 多 
个 程序 号 的 服务 器 是 尽责 的 。SunRPC 请 求实 际 上 代表 了 一 种 请 求 ， 该 请 求 是 调用 特定 机 

器 上 特定 程序 和 过 程 的 请 求 ， 相 同 的 程序 号 可 以 用 在 相同 网 络 中 的 不 同 机 器 上 。 这 样 ， 服 
务 器 的 地 址 (如 IP 地 址 ) 就 成 了 RPC 地 址 中 的 第 三 层 地址 。 

不 同 程序 号 可 能 属于 同一 台 机 器 上 的 不 同 服务 器 ， 这 些 不 同 的 服务 器 具有 不 同 的 

传输 层 标 识 〈 例 如 UDP 端口 ) ， 其 中 大 部 分 都 是 被 动态 指派 的 非 知 名 端口 ， 这 些 标识 
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图 5-18 SunRPC 首部 格式 


称 为 传输 层 选 择 器 (transport selector)。 一 个 想 要 与 特定 程序 交互 的 SunRPC ¥ FP dig 
如 何 决 定 应 该 使 用 哪 一 个 传输 层 选择 器 到 达 相 应 的 服务 器 呢 ? 解决 办 法 是 给 远程 机 从 
上 的 一 个 程序 指派 知名 地 址 ， 让 该 程序 告诉 客户 端 哪个 传输 层 选择 器 能 够 到 达 该 机 器 
上 的 其 他 程序 。 该 SunRPC 程序 的 最 初版 本 称 为 端口 映射 (Port Mapper), E(t FF 
下 层 协议 为 UDP 或 TCP 的 情况 。 它 的 程序 号 是 x00100000， 知 名 端口 号 是 111。 
RPCBIND 由 端口 映射 程序 演化 而 来 ， 它 支持 任意 的 下 层 传 输 层 协议 。 当 SunRPC 服 
务 器 启动 时 ， 它 调用 位 于 服务 器 宿主 机 上 的 RPCBIND 注册 过 程 来 注册 其 支持 的 传输 
层 选择 器 和 程序 号 ， 之 后 远程 客户 端 就 能 调用 RPCBIND 过 程 查询 对 应 于 特定 程序 号 
的 传输 层 选 择 需 。 

为 了 便于 理解 ， 考 虑 在 UDP 上 使 用 端口 映射 的 例子 ,为 了 给 NFS 的 read 过程 发 送 请 
求 报 文 ， 客 户 端 首 先 要 给 UDP 端口 111 上 的 端口 映射 程序 发 送 一 个 请 求 报 文 ， 请 求 调用 
过 程 3 以 把 程序 号 x00100003 上 映射 为 当前 NFS 程序 所 在 的 UDP 端口 。 客 户 端 接着 向 该 
UDP 端口 发 送 程序 号 为 x00100003 过 程 号 为 6 的 SunRPC tok ie oC, FER im OT 
SunRPC 模块 调用 NFS 的 read 过程。 客户 端 也 保存 程序 号 到 端口 号 的 映射 ， 所 以 不 必 在 
每 次 想 与 NFS 对 话 的 时 候 都 要 返回 到 端口 映射 程序 。 

为 了 将 应 答 报 文 与 相应 的 请 求 报 文 相 匹 配 ， 以 便 RPC 能 返回 到 正确 的 调用 者 ， 请 求 
报 文 和 应 答 报 文 的 首部 都 包含 有 XID (事务 ID) 字段 ， 如 图 5-18 所 示 。 ee 
” 务 标 识 符 ， 仅 用 于 一 次 请 求 和 相应 的 应 答 中 。 在 服务 器 对 给 定 的 请 求 进行 了 成 功 的 应 竺 
后 ， 它 不 会 记得 该 XID。 因 此 ，SunRPC 不 能 保证 最 多 一 次 语义 。 

SunRPC 语义 的 细节 依赖 于 下 层 的 传输 层 协议 ， 它 没有 实现 目 己 的 可 靠 性 ， 因 此 仅 当 
下 层 传 输 层 协议 可 靠 时 它 才 是 可 靠 的 《当然 ， 任 何 和 运行 在 SunRPC 之 上 的 应 用 程序 也 可 以 
”选择 在 SunRPC 之 上 实现 其 目 身 的 可 靠 机 制 )。 发 送 比 网 络 MTU 大 的 请 求 和 应 答 报 文 的 
能 力也 依赖 于 下 层 的 传输 层 。 换 名 话说 ， 在 可 靠 性 和 报 文 大 小 方面 ，SunRPC 相对 于 下 层 
传输 层 来 说 并 没有 做 任何 改进 ， 因 此 SunRPC 能 够 运行 在 许多 不 同 的 传输 层 协议 之 上 ， 具 具 
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有 相当 大 的 灵活 性 ， 没 有 给 RPC 协议 的 设计 增加 任何 复杂 性 。 

回 到 图 5-18 所 示 的 SunRPC 的 首部 格式 ， 请 求 报 文 包含 变 长 的 Credentials GEP) 
和 Verifier 〈 校 验 ) 字段 ， 它 们 都 被 客户 端 用 来 向 服务 器 认证 自己 ， 也 就 是 说 ， 给 出 客户 
端 有 权 访 问 服务 器 的 证 据 。 客 户 端 如 何 向 服务 器 认证 自己 是 一 个 普遍 的 问题 ， 它 必须 由 任 
何 希望 提供 合理 安全 级 别 的 协议 来 解决 。 关 于 该 问题 的 更 详细 的 讨论 见 下 一 章 。 

2. DCE-RPC | 

DCE-RPC # DCE 系统 核心 部 分 的 RPC 协议 ， 也 是 微软 DCOM 和 ActiveX 中 RPC 机 
制 的 基础 。 它 可 以 和 第 7 章 描述 的 网 络 数据 表示 (Network Data Representation, NDR) 
桩 编译 器 一 起 使 用 ,但 它 也 可 以 作为 公用 对 象 请 求 代 理 体 系 结构 (Common Object Re- 
quest Broker Architecture, CORBA) 的 基础 RPC HW, CORBA 是 一 个 构建 分 布 式 、 面 
向 对 象 系统 的 行业 标准 。 

像 SunRPC 一 样 ，DCE-RPC 被 设计 为 运行 在 包括 UDP 和 TCP 在 内 的 多 个 传输 层 协 
WE. 与 SunRPC 类 似 ， 它 定义 了 一 个 两 层 编 址 方案 : 传输 层 协 议 多 路 分 解 到 正确 的 服务 
器 ，DCE 一 RPC 分 发 到 由 该 服务 器 输入 的 特定 过 程 ， 客 户 端 查阅 “端点 映射 服务 ”( 类 似 
于 SunRPC 的 端口 映射 ) 以 获得 如 何 到 达 特 定 服务 器 的 途径 。 然 而 ， 与 SunRPC AMA 
是 ，DCE-RPC 实现 最 多 一 次 调用 语义 (事实 上 ，DCE-RPC 支持 多 个 调用 语义 ， 包 括 类 似 
于 SunRPC 的 寡 等 语义 ， 但 最 多 一 次 语义 是 其 默认 行为 ) 。 在 下 面 的 段落 中 将 突出 两 种 方 
法 的 区 别 之 处 。 客户 端 服务 器 

图 5-19 给 出 了 典型 报 文 交换 的 时 间 线 ， 其 中 每 个 报 文 
由 它 的 DCE-RPC 类 型 标明 。 客 户 端 发 送 一 个 Request 报 文 ， 
服务 器 最 终 用 一 个 Response 报 文 来 应 答 ， 然 后 客户 端 确认 
(Ack) 这 个 响应 。 然 而 ， 在 DCE-RPC 中 服务 器 并 不 确认 请 
求 报 文 ， 而 是 由 客户 端 定期 向 服务 器 发 送 一 个 Ping 报 文 ， 
服务 器 用 一 个 Working 报 文 响应 表示 远程 过 程 仍 在 处 理 中 。 
如 果 服 务 器 的 应 管 很 快 被 接收 ， 则 不 需要 发 送 Ping 报 文 。 
尽管 图 中 没有 显示 ， 但 DCE-RPC 也 支持 其 他 报 文 类 型 。 例 
如 ， 客 户 端 能 够 向 服务 器 发 送 一 个 Quit 报 文 ， 要求 服务 器 
终止 一 个 仍 在 处 理 的 早期 调用 ， 服 务 器 响应 一 个 Quack 
(退出 确认 ) 报 文 。 服 务 器 也 可 以 用 一 个 Reject (表示 一 个 
调用 已 被 拒绝 ) 报 文 响应 Request 报 文 ， 并 且 能 够 用 一 个 
Nocall 报 文 (表示 服务 器 未 曾 接收 到 调用 方 的 请 求 ) 响 应 
Ping 报 文 。 

DCE-RPC 中 的 每 个 请 求 / 应 答 事务 都 发 生 在 活跃 期 Cac- 
tivity) ， 活 跃 期 是 一 对 参与 方 之 间 的 逻辑 请 求 /应 答 信 道 。 在 | 
任何 时 刻 ， 在 给 定 信道 中 只 有 一 个 报 文 事务 是 活跃 的 。 就 像 E5 AN DCERPC 
在 2. 5. 3 节 中 所 描述 的 并 发 逻辑 信道 方法 一 样 ， 如 果 应 用 程 报 文 交换 
序 同时 想 有 多 个 请 求 / 应 答 事务 ， 那 么 就 必须 打开 多 个 信道 。 报 文 所 属 的 活跃 期 通过 报 文 
的 Activityld 字段 来 识别 ，SequenceNum 字段 用 来 区 分 同一 活跃 期 中 的 不 同调 用 ， 它 与 
SunRPC 中 的 XID (#4 ID) 字段 具有 相同 的 作用 。 与 SunRPC 不 同 ，DCE-RPC 跟踪 特 
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定 活跃 期 中 最 后 使 用 的 序号 ， 以 此 保证 最 多 一 次 语义 。 为 了 在 服务 器 重启 之 前 或 之 后 对 应 
答 进 行 区 分 ，DCE-RPC 使 用 ServerBoot Bose tr OL as Wa oy ID. 

DCE-RPC 中 另外 一 个 不 同 于 SunRPC 的 设计 选择 是 在 RPC 协议 中 支持 分 段 和 重组 。 
正如 上 面 所 提 到 的 ， 即 使 下 层 协 议 (例如 IP) 提供 了 分 段 /重组 功能 ， 当 分 段 委 失 时 ， 作 
为 RPC 的 一 部 分 来 实现 的 该 算法 能 够 进行 快速 恢复 ， 减 少 带宽 消耗 。FragmentNum 字段 
唯一 地 识别 构成 给 定 请 求 或 应 答 报 文 的 每 个 分 段 。 每 个 DCE-RPC 分 段 被 指派 了 一 个 唯一 
的 分 段 号 (0、1、2、3 等 )。 客 户 端 和 服务 器 都 实现 了 一 种 选择 性 的 确认 机 制 ， 其 执行 过 
程 如 下 。( 从 客户 端 给 服务 器 发 送 一 个 分 段 请 求 报 文 的 角度 来 描述 这 个 机 制 ， 当 服务 器 给 
客户 端 发 送 一 个 分 段 响应 时 ， 采 用 同样 的 机 制 。) 

首先 ， 构 成 请 求 报 文 的 每 个 分 段 都 包含 一 个 唯一 的 FragmentrNum 和 一 个 指示 该 分 组 
是 一 个 调用 的 分 段 Crag) 或 是 一 个 调用 的 最 后 分 段 〈last_frag) 的 标志 ， 容 纳 一 个 单独 
分 组 的 请 求 报 文 携带 一 个 no_frag 标志 。 当 服务 器 接收 到 具有 last_frag 标志 的 分 组 而 且 分 
组 的 分 段 号 没有 间断 时 ， 它 就 知道 已 接收 了 一 个 完整 的 请 求 报 文 。 其 次 ， 为 了 响应 每 个 到 
达 的 分 段 ， 服 务 器 发 送 一 个 Fack (分 段 确认 ) 报 文 给 客户 端 。 该 确认 标明 服务 器 已 经 成 
功 收 到 的 最 大 分 段 号 。 换 句 话 说， 确认 是 累积 确认 ， 很 像 TCP 中 的 确认 。 然 而 ， 服 务 
器 同时 也 选择 地 确认 它 错 序 接收 的 较 大 分 段 号 。 它 使 用 位 向 量 来 实现 这 一 功能 ， 位 向 量 
标识 相对 于 按 序 接收 到 的 最 大 号 分 段 的 那些 乱 序 分 段 。 最 后 ， 客 户 端 用 重 传 丢 失 的 分 段 
来 响应 。 

图 5-20 解释 了 整个 工作 过 程 。 假 设 服务 器 已 成 功 接收 到 直到 序号 为 20 的 各 个 分 段 ， 
以 及 序号 为 23、25 和 26 的 分 段 。 服 务 器 用 一 个 Fack 响应 ，Fack 标识 分 段 20 是 最 大 有 序 
分 段 ， 并 加 上 一 个 第 3 (23=204+3) 位 、 第 5 (25 二 20 十 5) 位 和 第 6 (26 王 20 十 6) 位 为 
1 的 位 向 量 (SelAck)。 为 了 支持 一 个 (几乎 ) 任意 长 的 比特 向 量 ， 向 量 的 长 度 (以 32 位 
字 度 量 ) 在 SelAckLen 字段 中 给 出 。 








a| | eae ols et | FragmentNum=20 
Ef | ~e | | 6420 
ee | d WindowSize=10 | — 5+20 
21 =a ee aa | : = || r3+20 
a5 ree l | | SelAckLen=1 in 
i AS | SelAck[1]=0 x 34— > 110100 


图 5-20 ”市 有 选择 性 确认 的 分 段 
如 果 DCE-RPC 支持 很 大 的 报 文 





FragmentNum 字段 长 度 为 16 位 ， 这 表示 它 能 够 
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支持 64K 个 分 段 一 一 那么 尽 可 能 快 地 处 理 掉 组 成 一 个 报 文 的 所 有 分 段 对 该 协议 来 说 是 不 适 
合 的 ， 因 为 这 样 做 可 能 超出 接收 方 的 限度 。 相 反 ，DCE-RPC 实现 了 一 个 类 似 于 TCP 的 流 
量 控制 算法 。 尤 其 是 ， 每 个 Fack 报 文 不 仅仅 确认 接收 到 的 分 段 ， 同 时 也 通知 发 送 方 现在 
可 以 发 送 多 少 个 分 段 。 这 正 是 图 5-20 中 的 WindowSize 字段 的 目的 ， 它 与 TCP 的 Adver- 
tisedWindow 字段 的 目的 类 似 ， 但 它 计数 的 是 分 段 而 不 是 字 节 。DCE-RPC 也 实现 了 一 个 
类 似 于 TCP 的 拥塞 控制 机 制 ， 我 们 将 在 第 6 章 中 讨论 。 鉴 于 拥塞 控制 的 复杂 性 ， 一 些 
RPC 协议 通过 避免 分 段 来 避免 拥塞 。 

总 之 ， 在 设计 一 个 RPC 协议 时 ,设计 者 有 比较 大 的 选择 范围 。SunRPC 能 够 实现 最 
低 限 度 的 功能 ， 对 下 层 的 传输 层 增加 了 相关 功能 ， 能 够 定位 正确 的 过 程 并 识别 报 文 。 
DEC-RPC 增加 了 更 多 的 功能 ， 在 更 复杂 的 环境 下 改善 了 性 能 。 


5.4 实时 应 用 程序 传输 (RTP) 


在 分 组 交换 的 早期 阶段 ， 大 部 分 应 用 程序 涉及 的 都 是 数据 的 传输 : 访问 远程 计算 资 
源 、 传 输 文 件 、 发 送 电子 邮件 等 。 然 而 ， 早 在 1981 年 ， 在 分 组 网 络 上 就 已 经 开始 了 传输 
实时 流量 的 实验 ， 例 如 传输 数字 化 音频 。 当 应 用 程序 对 及 时 传输 信息 有 强烈 需求 时 ， 该 应 
用 程序 就 被 称 为 是 实时 的 。 因 特 网 电话 或 P 电话 (VoIP) 是 实时 应 用 程序 的 典型 例子 ， 
因为 在 一 次 通话 过 程 中 延迟 ls 以 上 才 得 到 对 方 的 啊 应 是 不 能 容忍 的 。 我 们 将 会 看 到 ， 实 
时 应 用 程序 对 传输 层 协 议 有 特殊 要 求 ， 这 些 要 求 是 本 
草 中 已 经 讨论 过 的 协议 所 无 法 满足 的 。 

多 媒体 应 用 “〈 涉 及 视频 、 音 频 和 数据 ) 可 以 分 为 
两 类 : 交互 式 Cinteractive) MAMAA Cstreaming) 
应 用 。 交 互 式 应 用 程序 早期 流行 一 时 的 例子 是 vat, 
这 是 一 个 音频 会 议 工 具 ， 通 常用 于 文 持 IP 多 播 的 网 络 
E. 图 5-21 显示 了 一 个 典型 vat 会 议 的 控制 面板 。 
特 网 电话 也 是 一 个 交互 式 的 应 用 ， 在 本 书写 作 时 它 可 
能 是 最 广泛 使 用 的 交互 式 应 用 。 男 一 个 交互 式 应 用 程 
序 的 例子 是 基于 互联 网 的 多 媒体 会 议 ， 参 见 第 1 章 的 
图 1-1。 现 代 的 即时 消息 应 用 程序 也 使 用 实时 音频 和 
视频 。 这 些 都 是 对 实时 需求 最 迫切 的 应 用 程序 。 

流 式 应 用 程序 主要 是 从 服务 器 回 客 户 端 传输 音 
频 或 视频 流 ， 其 代表 是 像 Real Audio 电 这 样 的 商业 产品 。 以 YouTube 为 代表 的 视频 流 式 
应 用 程序 已 经 成 为 流量 互联 网 上 的 主要 形式 。 流 式 应 用 由 于 缺乏 人 与 人 的 交互 ， 所 以 对 
下 层 协 议 的 实时 需求 并 不 是 很 迫切 。 然 而 ， 假 如 你 希望 按 下 播放 键 后 驶 能 立刻 观看 视频 
但 由 于 分 组 延迟 而 导致 缓冲 或 视觉 延迟 ， 这 时 实时 就 显得 很 重要 。 虽 然 这 些 应 用 程序 对 
实时 性 的 要 求 并 不 严格 ， 但 它们 与 交互 式 应 用 程序 一 样 ， 需 要 在 通用 协议 之 上 考虑 类 似 
的 问题 。 

用 于 实时 应 用 和 多 媒体 应 用 的 传输 层 协议 的 设计 者 们 在 定义 满足 不 同 应 用 的 需求 方面 
面临 着 非常 现实 的 挑战 ， 他 们 必须 要 注意 不 同 应 用 之 间 的 交互 性 ; 例如 ， 音 频 和 视频 流 的 
同步 。 我 们 将 会 看 到 这 些 因 素 是 如 何 影响 实时 传输 协议 (Real-time Transport Protocol, 
RTP) 的 设计 的 ，RTP 也 是 当今 的 主流 传输 协议 。 








图 5-21 vat 音频 会 议 软件 的 用 户 界面 


RTP 大 部 分 来 源 于 早期 vat 应 用 中 的 协议 功能 ，vat 设计 之 初 运行 在 UDP 上 ， 设 计 和 着 
发 现 处 理 实时 音频 对 话 的 一 些 技术 特性 适用 于 其 他 许多 应 用 程序 ， 于 是 他 们 定义 了 包含 这 
些 特 性 的 协议 ， 后 来 演变 为 RTP. RTP 能 运行 在 许多 底层 协议 possessores 


之 上 ， 但 通常 都 运行 在 UDP 之 上 ， 这 样 其 协议 栈 就 如 图 5-22 一 一 一 一 一 | 
所 示 。 注 意 到 这 里 是 在 传输 层 协议 之 上 运行 传输 层 协议 ， 这 并 | UP | 
没有 违反 规则 9 ， 事 实 上 可 以 有 多 种 理解 ， 因 为 UDP 提供 了 这 | 了 | 
样 一 个 最 低 限度 的 功能 层 ， 基 于 端口 号 的 基本 的 多 路 分 解 正 是 一 一 一 一 一 一 J 
RTP 所 需要 的 。 优 于 在 RTP 中 重新 创建 端口 号 ，RTP 利用 了 图 5-22 使 用 RTP 的 多 
UDP 的 多 路 分 解 功能 。 媒体 应 用 的 协议 栈 
5.4.1 需求 


通用 多 媒体 协议 的 最 基本 需求 是 允许 类 似 的 应 用 程序 之 间 交 互 操作 ， 例 如 ， 人 允许 两 个 
独立 实现 的 音频 会 议 应 用 程序 之 间 相 互 交谈 。 这 就 要 求 应 用 程序 使 用 相同 的 音频 编码 和 压 
缩 方法 ， 否 则 ， 接 收 方 将 无 法 理解 发 送 方 发 送 的 数据 。 因 为 有 许多 不 同 的 音频 编码 方法 ， 
每 种 方法 在 质量 、 带 宽 需求 、 计 算 代 价 等 方面 都 有 自己 的 协定 ， 因 此 只 使 用 一 种 方法 并 不 
是 一 个 好 主意 。 相 反 ， 我 们 的 协议 应 该 提供 一 种 方法 ， 使 得 发 送 方 能 够 告诉 接收 方 它 想 要 
使 用 的 编码 方法 ， 双 方 可 能 会 进行 协商 ， 以 便 找 到 双方 都 可 接受 的 方法 。 

与 音频 一 样 ， 目 前 也 有 许多 不 同 的 视频 编码 方法 ， 因此 ，RTP 的 首要 功能 是 提供 选 
择 编码 方法 的 能 力 。 注 意 这 也 用 于 识别 应 用 的 类 型 例如， 音频 或 视频 )， 一 旦 知道 了 使 
用 的 编码 算法 ， 也 就 知道 了 被 编码 的 数据 的 类 型 。 

RTP 的 另 一 个 重要 需求 是 使 得 数据 流 接收 方 能 够 判断 已 接收 数据 中 的 时 间 关 系 ， 在 
6.5 节 我 们 将 介绍 ， 实 时 应 用 程序 需要 将 接收 到 的 数据 放 人 播放 缓冲 区 (playback buff- 
er) ， 以 便 消 除 在 网 络 传输 过 程 中 可 能 被 引入 的 数据 流 中 的 抖动 。 因 此 ， 数 据 需要 有 时 间 
Bl 〈 也 称 时 标 ) ， 以 便 接 收 方 能 在 合适 的 时 间 进 行 播放 。 

与 单个 媒体 流 相关 的 时 间 是 多 媒体 会 议 的 同步 事件 ， 最 明显 的 例子 是 同步 来 自 同一 发 
送 方 的 音频 和 视频 流 。 正 如 下 面 将 会 看 到 的 ， 对 单个 流 来 说 ， 这 是 比 播放 时 间 更 复杂 的 
问题 。 

需要 提供 的 另外 一 个 重要 的 功能 是 分 组 丢失 指示 。 注 意 具 有 潜在 限制 的 应 用 程序 通常 

不 能 使 用 像 TCP 这 样 的 可 靠 传输 协议 ， 因 为 对 丢失 数据 的 重 传 可 能 会 使 分 组 到 达 得 太 上 晚 ， 
从 而 无 法 使 用 。 因 此 ， 应 用 程序 必须 能 够 处 理 丢 失 的 分 组 ， 处 理 的 第 一 步 就 是 通知 分 组 已 
经 丢失 。 例 如 ， 当 分 组 丢失 时 ,使 用 MPEG 编码 的 视频 应 用 程序 可 能 需要 采取 不 同 的 行 
动 ， 这 依赖 于 分 组 是 来 自 1 帧 、B isk P 帧 。 
”分 组 丢失 也 上 暗示 网 络 发 生 了 拥塞 。 多 媒体 应 用 程序 通常 不 运行 在 TCP 上 ， 因 此 无 法 
利用 TCP 的 拥塞 避免 特性 (6. 3 节 介 绍 )。 然 而 许多 多 媒体 应 用 程序 能 够 对 拥塞 进行 响应 ， 
例如 ， 通 过 改变 编码 算法 的 参数 来 减少 带宽 消耗 。 显 然 ， 为 了 完成 该 工作 ， 接 收 方 需要 通 
知 发 送 方 丢失 事件 的 出 现 ， 以 便 发 送 方 能 够 调整 其 编码 参数 。 | 

多 媒体 应 用 程序 的 另外 一 个 通用 功能 是 帧 边界 的 指示 ， 帧 是 依赖 于 特定 应 用 的 ， 例 
如 ,通知 视频 应 用 程序 一 个 特定 的 分 组 集 对 应 某 一 帧 可 能 是 有 帮助 的 。 在 一 个 音频 应 用 程 





O ”但 这 却 使 人 们 对 RTP 是 否 为 真正 的 传输 层 协议 产生 困惑 。 
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序 中 标记 “交谈 ”的 开始 可 能 也 是 有 帮助 的 ， 这 里 所 说 的 交谈 是 指 在 沉默 之 后 发 出 的 声音 
或 单词 集合 。 接 收 方 据 此 就 能 识别 在 交谈 之 间 的 沉默 ， 并 使 用 这 段 时 间 来 移动 播放 点 。 对 
于 用 户 来 说 ， 交 谈 时 声音 之 间 的 空隙 发 生 微小 的 减少 或 延长 是 不 易 察觉 的 ， 然 而 声音 的 减 
少 或 延长 不 但 是 易于 察觉 的 ， 而 且 是 很 令 人 讨厌 的 。 

想 放 入 协议 中 的 最 后 的 功能 是 识别 发 送 方 的 方法 ， 这 比 IP 地 址 更 为 友好 。 如 图 5-21 
所 示 ， 音 频 和 视频 会 议 应 用 能 在 控制 面板 上 显示 字符 串 ， 例 如 Joe User Cuser @ 
domain. com)， 这 样 应 用 协议 应 该 支持 这 样 的 字符 串 和 数据 流 的 关联 。 

除了 协议 所 要 求 的 功能 外 ， 需 要 注意 一 个 额外 的 需求 ， 即 它 应 该 尽 可 能 有 效 地 利用 带 
。 换 句 话 说， 我 们 不 希望 长 首部 格式 中 许多 额外 的 比特 随 着 每 个 分 组 被 发 送 ， 因 为 音频 
组 是 最 常见 的 多 媒体 数据 类 型 ， 它 应 该 尽 可 能 小 ， 以 便 减 少 构造 分 组 的 时 间 。 长 的 音频 
分 组 意味 着 长 的 响应 时 间 ， 对 交谈 质量 有 负面 影响 〈 在 选择 ATM 信 元 长 度 时 这 是 一 个 考 
虑 因素 ) 。 由 于 数据 分 组 本 身 比 较 小 ， 较 大 的 首部 意味 着 相对 多 的 连接 带宽 被 用 于 首部 ， 
这 就 减少 了 实际 数据 所 能 利用 的 带宽 。 我 们 将 会 看 到 设计 RTP 的 好 几 个 方面 都 受到 了 保 
持 短 首部 的 影响 。 | | 

我 们 可 以 讨论 实时 传输 协议 中 描述 的 各 个 特性 存在 的 必要 性 ， 也 可 以 添加 更 多 的 特 
性 。 关 键 在 于 为 应 用 程序 开发 者 描述 一 系列 有 用 的 抽象 并 为 他 们 构建 应 用 程序 块 ， 使 他 们 
的 工作 更 轻松 。 例 如 ， 通 过 在 RTP 中 增加 时 间 惟 机制， 每 个 实时 应 用 程序 开发 者 不 必 开 
发 目 己 的 时 间 戳 机制， 同时 还 增加 了 两 个 实时 应 用 程序 互相 交互 的 机 会 。 
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5.4.2 RTP 设计 


我 们 已 经 看 到 了 用 于 多 媒体 的 传输 层 协 议 有 相当 多 的 需求 ， 下 面 来 看 看 满足 这 些 需 求 
的 协议 的 细节 。RTP 协议 是 由 IETF 开发 的 ， 目 前 应 用 广泛 。RTP 标准 实际 上 定义 了 一 
对 协议 ， 即 RTP 和 实时 传输 控制 协议 (Real-time Transport Control Protocol, RTCP), 
前 者 用 于 多 媒体 数据 的 交换 ， 后 者 用 于 周期 性 地 发 送 与 特定 数据 流 相关 联 的 控制 信息 。 当 
在 UDP 上 运行 时 ，RTP 数据 流 与 相关 联 的 RTCP 控制 流 使 用 连续 的 传输 层 端口 。RTP 
数据 使 用 偶数 端口 号 ，RTCP 控制 信息 使 用 相连 的 下 一 个 (奇数 ) 端口 号 。 

因为 RTP 用 于 支持 各 种 各 样 的 应 用 ， 因 此 它 提 供 了 一 种 灵活 的 机 制 ， 使 用 该 机 制 不 
需要 重复 修订 RIP 协议 本 身 就 可 以 开发 新 的 应 用 程序 。 对 于 每 种 应 用 类 型 (如 音频 )， 
RTP 定义 了 一 个 轮廓 〈profile) 和 一 个 或 多 个 格式 〈format) 。 轮 廓 提供 了 一 个 信息 范围 
来 确保 对 各 种 应 用 类 型 中 RTP 首部 字段 的 理解 ， 当 我 们 查看 首部 细节 时 会 更 明白 这 一 点 。 
格式 定义 了 跟随 在 RTP 首部 之 后 的 数据 如 何 被 解释 。 例 如 ，RTP 首部 之 后 可 能 只 有 一 个 
字 节 序列 ， 每 个 字 节 表示 一 个 单一 的 音频 样本 。 相 比较 而 言 ， 数 据 的 格式 可 能 更 为 复杂 ， 
例如 ， 一 个 用 MPEG 编码 的 视频 流 需要 有 许多 结构 来 表示 各 种 不 同类 型 的 信息 。 

结论 RTP 的 设计 包含 了 一 个 称 为 应 用 层 框 架 (Application Level Framing, 

ALF) 的 体系 结构 原则 ， 该 原则 是 Clark 和 Tennenhouse 在 1990 年 提出 的 ， 这 

是 一 个 为 多 媒体 应 用 设计 协议 的 新 方法 。 他 们 认识 到 这 些 新 应 用 无 法 得 到 像 TCP 

这 样 的 现 有 协议 的 良好 支持 ， 而 且 可 能 也 无 法 得 到 任何 “固定 大 小 ”的 协议 的 康 

好 支持 。 该 原则 的 核心 是 应 用 程序 最 理解 它 自己 的 需要 。 例 如 ，MPEG 视频 应 用 

程序 知道 如 何 最 好 地 恢复 委 失 的 帧 ， 若 工 帧 或 者 B 帧 委 失 如 何 进行 不 同 的 处 理 。 

同样 的 应 用 程序 也 理解 如 何 将 传输 的 数据 进行 分 段 ， 例 如 ， 在 不 同 数据 报 中 最 好 
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RRR ARAM 的 数据 ， 以 便 丢 失 的 分 组 仅仅 影响 一 个 帧 。 由 于 该 原因 RTP 

相应 应 用 的 轮廓 和 格式 中 保留 了 许多 协议 细节 。 

a; 5-23 显示 了 RTP 的 首部 格式 ， 前 12 个 字 节 总 是 存在 ， 然 而 仅 在 特定 环境 下 才 使 
用 贡献 源 标识 符 。 首 部 之 后 是 扩展 首部 ， 下 面 将 有 相关 描述 。 之 后 是 RIP AMR, H 
格式 由 具体 应 用 来 决定 ， 它 包含 着 可 能 被 多 种 不 同 应 用 所 使 用 的 字段 ， 对 于 不 同 的 应 用 来 
说 其 字段 不 同 ， 这 有 利于 RTP 仅仅 承载 特定 应 用 的 相关 载荷 。 


TTT DA A RN = 











| 同步 源 (SSRC ) 标识 符 


Bm eee et mre te cea 


贡献 源 ( CSRC ) 标识 符 


1 = 
i 


| RTP 有 效 载 荷 
图 5-23 RTP 首部 格式 


前 两 位 是 版 本 号 ， 本 书写 作 时 RTP 的 版 本 号 是 2。 协 议 设计 者 认为 2 位 将 足以 包含 将 
来 所 有 RTP 版 本 号 ， 这 些 位 在 RTP 首部 是 额外 开销 ， 针 对 各 种 不 同 应 用 的 轮廓 使 用 使 得 
对 于 基本 RTP 协议 的 修订 不 会 太 多 。 在 任何 情况 下 ， 如 果 RTP 需要 有 超越 版 本 2 的 下 一 
个 版 本 ， 可 以 考虑 改变 首部 格式 ， 以 便 支持 将 来 的 多 个 版 本 。 例 如 ， 在 版 本 字段 具有 值 3 
的 新 的 RTP 首部 可 能 在 首部 包含 一 个 子 版 本 号 字段 。 

下 一 位 是 填充 (padding, P) 位 ， 当 由 于 某 种 原因 使 RTP 裁 荷 被 填充 时 需要 使 用 访 
字段 。 例 如 ， 由 于 加 密 算 法 的 需要 ，RTP 数据 可 能 需要 填充 一 些 内 容 。 在 这 种 情况 下 ， 
FEWR AW, UDP) 将 传输 整个 RTP 首部 、 数 据 以 及 填充 内 容 ， 填 充 的 字 节 将 会 被 
忽略 ， 见 图 5-24。 注 意 这 种 填充 方法 使 得 RTP 首部 不 需要 长 度 字段 (使 得 首部 尽 可 能 
短 )， 在 没有 填充 的 情况 下 ， 长 度 可 由 下 层 协议 推出 。 
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图 5-24 RTP 44 













扩展 (extension, X) 位 用 于 指示 扩展 首部 的 存在 ， 特 定 的 应 用 会 定义 扩展 首部 ， 它 
跟随 在 基本 首部 之 后 。 扩 展 首部 很 少 使 用 ， 对 于 特定 的 应 用 来 说 ， 可 能 会 针对 特定 载荷 定 
义 扩 展 站 部， 以 说 明 特 定 载荷 的 格式 。 

X 位 之 后 是 一 个 4 位 的 字段 ， 用 来 说 明 包 含 在 首部 中 的 贡献 源 (contributing source) 
的 数量 。 关 于 贡献 源 将 会 在 下 文 讨论 。 

根据 上 文 我 们 注意 到 需要 有 对 各 种 各 样 帧 的 指示 ， 这 出 有 特殊 用 途 的 标记 位 来 提供 ， 
例如 ， 在 语音 应 用 中 标记 交谈 的 开始 。 接 下 来 是 7 位 的 有 效 载荷 类 型 字段 ， 它 指示 在 分 组 
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中 承载 的 是 什么 类 型 的 多 媒体 数据 。 该 字段 的 一 种 可 能 用 途 是 基于 网 络 资源 可 用 性 或 应 用 
质量 的 反 饿 ， 使 应 用 从 一 种 编码 方法 切换 到 另 一 种 方法 。 标 记 位 的 确切 使 用 方式 和 有 效 载 
荷 类 型 由 应 用 的 配置 文件 来 决定 。 

有 效 载荷 类 型 通常 不 用 作 多 路 分 解 来 指示 不 同 应 用 的 数据 (或 者 单一 应 用 中 的 不 同 
流 ， 例 如 ， 视 频 会 议 的 音频 或 视频 流 ) 多 路 分 解密 码 ， 这 是 因为 多 路 分 解 功能 典型 地 由 下 
层 来 提供 (例如 UDP， 正 如 5.1 节 中 所 描述 的 )。 这 样 ,使 用 RTP 的 两 个 媒体 流 将 使 用 
不 同 的 UDP 端口 号 。 | 

序号 用 于 使 RTP 流 的 接收 方 检测 丢失 或 失 序 的 分 组 ， 发 送 方 对 每 个 传输 的 分 组 递增 
序号 的 值 ， 当 检测 到 丢失 分 组 时 RTP 不 做 任何 事情 ， 这 一 点 与 TCP 不 同 ，TCP 纠正 丢失 
(通过 重 传 ) 并 将 其 理解 为 拥塞 指示 〈 从 而 可 能 减 小 窗口 大 小 ) 。 确 切 地 说 ， 当 分 组 和 于 失 
时 ， 由 应 用 来 决定 该 采取 什么 措施 ， 因 为 该 决定 可 能 是 高 度 依赖 应 用 的 。 例 如 ， 对 视频 应 
用 来 说 ， 最 好 的 决定 是 当 分 组 丢失 时 ， 播 放 正 确 接 收 到 的 最 后 的 帧 。 一 些 应 用 也 可 能 会 修 
改 其 编码 算法 ， 以 减少 响应 丢失 的 带宽 需求 ， 但 这 不 是 RTP 的 功能 。 对 RTP 来 说 ,决定 
应 该 被 减少 的 发 送 率 是 不 明智 的 ， 因 为 这 可 能 使 得 应 用 变 得 无 法 使 用 。 

时 间 惟 字段 的 功能 是 使 接收 方 在 合适 的 时 间 间 陀 内 播放 样本 ， 并 使 不 同 的 媒体 流 同 
步 。 因 为 不 同 的 应 用 可 能 需要 不 同 的 时 间 间 隔 ， 因 此 RTP 本 身 并 没有 指定 衡量 时 间 的 单 
人 位。 相反， 时 间 戳 只 是 一 个 计数 器 ， 计 数 的 时 间 间 隔 依赖 于 所 使 用 的 编码 方法 。 例 如 ， 音 
频 应 用 使 用 125ms 作为 时 钟 单位 。 时 钟 粒度 在 RTP 轮廓 或 应 用 的 载荷 格式 中 指定 。 

分 组 中 时 间 戳 的 值 是 表示 所 产生 分 组 中 第 一 个 样本 的 时 间 的 数字 ， 时 间 戳 不 反映 实际 
时 间 ， 只 反映 不 同时 间 惟 间 的 差别 。 例 如 ， 如 果 样 本 间隔 是 125ms， 分 组 寺中 的 第 一 个 样 
本 产生 10ms 后 分 组 2 十 1 中 的 第 一 个 样本 产生 了 ， 那 么 这 两 个 样本 间 的 样本 实例 数 是 

TimeBetweenPackets+ TimePerSample= (10X107?) 一 (125X1076) 一 80 

假设 时 钟 间 隔 与 样本 间隔 是 相同 的 ， 那 么 分 组 2 十 1 中 的 时 间 堆 比分 组 中 的 大 80。 
注意 ， 由 于 沉默 检测 这 样 的 压缩 技术 ， 小 于 80 个 的 样本 可 能 已 经 被 改 送 了 ， 然 而 时 间 截 
允许 接收 方 根据 正确 的 时 间 关 系 来 播放 样本 。 

同步 源 《SSRC) 是 一 个 32 位 的 数字 ， 它 唯一 地 标识 RTP 流 的 单个 源 。 在 一 个 给 定 
的 多 媒体 会 议 中 ， 每 个 发 送 方 随机 选择 一 个 SSRC， 并 在 两 个 不 同 的 源 选 择 了 相同 的 值 时 
解决 冲突 。 通 过 使 用 源 标识 符 ， 而 不 是 源 的 网 络 地 址 或 传输 地 址 ，RTP 能 够 确保 与 下 层 
协议 独立 。 它 也 使 得 具有 多 个 源 〈 例 如 ， 好 几 个 摄像 头 ) 的 单一 节点 能 够 对 源 进行 区 分 。 
当 单 一 节点 产生 了 不 同 的 媒体 流 时 〈 例 如 ， 音 频 和 视频 )， 在 每 个 流 中 不 需要 使 用 相同 的 
SSRC， 因 为 在 RTCP (后 面 将 会 描述 ) 中 有 机 制 能 够 允许 媒体 同步 。 

仅 当 许多 RTP 流通 过 混 频 器 时 才 使 用 贡献 源 〈CSRC) ， 混 频 器 通过 从 许多 源 接 收 数 
据 并 作为 单一 流 发 送 来 减 小 会 议 的 带宽 需求 。 例 如 ， 来 自 好几 个 并 行 演 讲 者 的 音频 流 能 够 
被 解码 并 重新 编码 为 一 个 单一 的 音频 流 。 在 这 种 情况 下 ， 混 频 器 将 其 自己 作为 同步 源 ， 并 
作为 贡献 源 一 一 演讲 者 的 SSRC 值 贡 献 给 当前 分 组 。 

















5.4.3 控制 协议 
RTCP 提供 了 与 多 媒体 应 用 数据 流 相 关联 的 控制 流 ， 该 控制 流 提 供 了 三 个 主要 功能 ， 
1) 关于 应 用 和 网 络 性 能 的 反馈 。 
2) 来 自 同 一 发 送 方 的 不 同 媒体 流 的 关联 与 同步 方法 。 
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3) 传输 发 送 方 身份 以 便 显示 在 用 户 界 面 上 的 方法 〈 例 如 ， 显 示 在 图 5-21 中 的 vat # 
面 ) 。 

第 一 个 功能 对 于 拥塞 的 侦 测 和 响应 来 说 是 有 用 的 ， 例 如 ， 一 些 自 适应 速率 的 应 用 可 能 
会 通过 性 能 数据 来 决定 使 用 更 好 的 压缩 方法 以 降低 拥塞 ， 或 者 当 拥 塞 比 较 小 时 发 送 高 质量 
的 流 。 回 馈 的 性 能 数据 在 诊断 网 络 故障 时 也 可 能 用 到 。 

你 可 能 会 认为 RTP 同步 源 (SSRC) ID 已 经 提供 了 第 二 个 功能 ， 但 事实 上 没有 。 正 
如 已 经 提 到 过 的 ， 在 同一 节点 上 的 多 个 摄像 头 有 不 同 的 SSRC 值 ， 并 且 来 自 同 一 节点 的 音 
频 和 视频 流 并 没有 使 用 同一 SSRC 的 需求 。 因 为 SSRC 的 值 可 能 会 出 现 冲 突 ， 因 此 改变 一 
个 流 的 SSRC 值 是 必要 的 。 为 了 处 理 这 个 问题 ，RTCP 使 用 了 规范 名 (CNAME) 的 概念 ， 
它 被 指派 给 一 个 发 送 方 ， 然 后 与 使 用 RTCP 机 制 的 发 送 方 所 使 用 的 SSRC 值 相 关联 。 

关联 两 个 流 只 是 媒体 同步 问题 的 一 部 分 。 因 为 不 同 的 流 可 能 有 完全 不 同 的 时 钟 (具有 
不 同 的 时 钟 间 隔 ， 甚 至 不 同 的 错误 量 ) ， 因 此 需要 有 一 种 方法 来 精确 地 同步 各 个 流 。RTCP 
通过 传递 关联 实际 时 间 的 定时 信息 和 RTP 分 组 所 携带 的 依赖 时 钟 速率 的 时 间 惟 来 解决 该 
问题 。 

RTCP 定义 了 许多 不 同 的 分 组 类 型 ， 包 括 : 

。 发 送 方 报告 ， 它 使 得 活动 的 发 送 方 能 够 产生 会 话 来 报告 传输 和 接收 的 统计 量 。 

。 接收 方 报告 ， 接 收 方 用 来 报告 接收 统计 量 。 

。 源 描 述 ， 承 载 CNAME 和 其 他 发 送 方 描述 信息 。 

。 特定 应 用 的 控制 分 组 。 

这 些 不 同类 型 的 RTCP 分 组 通过 下 层 协议 来 发 送 ， 正 如 之 前 提 到 过 的 ， 典 型 的 是 使 用 
UDP。 多 个 RTCP 分 组 可 以 被 封装 在 一 个 下 层 协议 的 PDU 中 。 在 每 个 下 层 PDU 中 至 少 
要 有 两 个 RTCP 分 组 : 一 个 是 报告 分 组 ， 另 一 个 是 源 描述 分 组 。 也 可 能 会 包含 其 他 分 组 ， 
其 大 小 只 要 满足 下 层 协 议 的 限制 即 可 。 

在 进一步 查看 RTCP 分 组 的 内 容 之 前 ， 注 意 周期 性 发 送 控制 流量 的 多 播 组 的 每 个 成 员 
都 有 潜在 的 问题 。 除 非 采 用 一 些 步 又 来 进行 限制 ， 否 则 控制 流量 有 可 能 成 为 带宽 的 重要 消 
耗 者 。 例 如 ， 在 音频 会 议 中 ， 两 个 或 三 个 发 送 方 可 能 在 任何 情况 下 发 送 音频 数据 ， 无 法 对 
其 进行 控制 ， 但 是 对 每 个 发 送 控 制 流 没有 群体 限制 ， 在 有 成 千 上 万 参与 者 的 会 议 中 将 是 一 
个 严重 的 问题 。 为 了 处 理 这 个 问题 ，RTCP 有 一 套 机 制 ， 根 据 参 与 者 增加 的 数量 来 测量 报 
告 频率 。 这 些 规 则 是 比较 复杂 的 ， 但 基本 目标 是 : 将 RTCP 流量 的 总 量 限制 为 RTP 数据 
流量 的 一 个 比较 小 的 比例 (典型 值 为 5%)。 为 了 实现 这 个 目标 ， 参 与 者 需要 知道 可 能 会 使 
用 多 少数 据 带 宽 〈 例 如 ， 发 送 三 个 音频 流 的 数量 ) 以 及 参与 者 的 数量 。 他 们 通过 RTP 来 
知道 前 者 (通过 本 节 末 的 会 话 管理 )， 通 过 其 他 参与 者 的 RTCP 报告 来 知道 后 者 。 因 为 
RTCP 报告 可 能 会 以 很 低 的 速率 发 送 ， 因 此 可 以 获得 接收 方 当前 容量 的 可 能 数量 ,但 这 就 
足够 了 。 而 且 ， 在 假设 多 数 参与 者 喜欢 看 报告 〈 例 如 ， 找 出 谁 正在 讲话 ) 的 基础 上 ， 推 荐 
给 活动 的 发 送 方 分 配 较 多 的 RTCP 带宽 。 

一 旦 参与 者 决定 了 它 能 够 消耗 多 少 RTCP 流量 带宽 ， 就 会 以 适当 的 比率 周期 性 地 发 送 
报告 。 发 送 方 报告 和 接收 方 报告 的 区 别 仅 在 于 前 者 包括 一 些 关 于 发 送 方 的 额外 信息 。 两 种 
类 型 的 报告 都 包含 最 近 的 报告 周期 内 从 所 有 源 接收 的 数据 的 相关 信息 。 

发 送 方 报告 中 的 额外 信息 包括 : 

。 包含 产生 报告 的 实际 时 间 的 时 间 戳 。 
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。 相应 于 产生 报告 的 时 间 的 RTP WY TI AR 

。 发 送 方 开始 传输 时 分 组 和 字 节 的 累计 计数 。 

注意 前 两 个 值 用 于 来 自 同 一 源 的 不 同 媒体 流 的 同步 ， 即 使 这 些 流 在 其 RTP 数据 流 中 
使 用 了 不 同 的 时 间 间 隔 ， 因 为 它 可 以 将 实际 时 间 转 换 为 RTP at a] AR. 

发 送 方 和 接收 方 报告 都 包含 每 个 源 从 最 后 的 报告 中 获取 的 数据 块 ， 每 个 数据 块 包含 源 
的 如 下 统计 量 : 

。 SSRC, 

。 目 最 后 报告 发 送 后 丢失 的 该 源 的 数据 分 组 片段 (通过 比较 接收 的 分 组 数量 与 期 待 

的 分 组 数量 来 计算 得 到 ， 最 后 的 值 可 由 RTP 序号 来 决定 )。 

。 目 听 到 的 第 一 个 时 间 后 从 该 源 丢 失 的 分 组 的 总 数量 。 
从 该 源 接 收 到 的 最 大 序号 (扩展 到 32 位 来 避免 序列 号 的 回 绕 ) 。 

。 该 源 预计 的 到 达 间 隔 空间 (通过 比较 接收 到 的 分 组 空间 和 传输 中 的 分 组 空间 来 计 

算得 到 ) 。 

。 通过 该 源 的 RTCP 接收 到 的 最 后 的 确切 时 间 截 。 

。 从 通过 该 源 的 RTCP 接收 到 的 最 后 的 发 送 方 报告 开始 的 延迟 。 

正如 你 可 能 想象 到 的 ， 信 息 的 接收 方 能 够 知道 关于 会 话 状态 的 各 种 信息 。 特 别 是 它们 
能 知道 是 否 别 的 接收 方正 在 从 一 些 发 送 方 获得 更 好 的 质量 ， 这 可 能 指示 需要 进行 资源 预 
留 ， 或 者 网 络 中 存在 问题 。 此 外 ， 如 果 发 送 方 注意 到 许多 接收 方正 在 经 历 分 组 的 大 量 丢 
失 ， 它 可 能 会 降低 发 送 速率 或 使 用 一 种 对 丢失 分 组 更 有 弹性 的 编码 方案 。 
”要 考虑 的 RTCP 的 最 后 一 个 方面 是 源 描述 分 组 ， 该 分 组 至 少 应 包含 发 送 方 的 SSRC 和 
CNAME。 规 范 名 源 于 这 样 的 方法 ， 对 于 产生 需要 同步 的 媒体 流 的 所 有 应 用 程序 (例如 ， 
同一 用 户 独 立 产生 音频 和 视频 流 )， 即 使 它们 选择 了 不 同 的 SSRC 值 ， 它 们 也 将 选择 同样 
的 CNAME。 这 使 得 接收 方 能 够 识别 出 媒体 流 来 自 同一 发 送 方 。CNAME 的 最 常见 格式 是 
user@ host, 这 里 host 是 发 送 机 兹 的 完整 域名 。 这 样 ， 运行 在 机 cicada. 
cs. princeton. edu 上 由 用 户 名 为 jdoe 的 用 户 安 装 的 应 用 程序 将 使 用 字符 串 jdoe @ 
cicada. cs. princeton. edu 作为 其 CNAME。 用 于 这 种 表示 法 中 的 大 量 且 可 变 长 度 的 字符 吕 
对 于 SSRC 来 说 是 不 好 的 选择 ， 因 为 SSRC 随 春 每 个 数据 分 组 被 发 送 ， 并 且 必 须 实时 处 理 。 
人 允许 CNAME 与 周期 性 RTCP 报 文中 的 SSRC 值 关 联 ， 使 得 SSRC 有 一 个 紧凑 上 且 有 效 的 格式 。 

在 源 描述 分 组 中 可 能 会 包含 其 他 内 容 ， 例 如 用 户 的 真实 名 字 和 电子 邮件 地 址 。 这 些 信 
息 用 在 用 户 界 面 显 示 和 联系 参与 者 中 ， 但 是 对 于 RTP 操作 来 说 ， 它 们 没有 CNAME 重要 。 

像 TCP 一 样 ，RTP 和 RTCP 是 相当 复杂 的 一 对 协议 。 这 种 复杂 性 很 大 一 部 分 来 自 使 
应 用 程序 设计 者 的 生活 更 轻松 的 愿望 。 因 为 应 用 程序 是 多 种 多 样 的 ， 所 以 设计 传输 协议 的 
挑战 是 让 这 个 协议 更 通用 以 满足 各 种 应 用 的 不 同 需 求 ， 而 并 不 是 设计 出 无 法 实现 的 协议 。 
在 这 方面 RTP 协议 成 功 构造 了 互联 网 上 众多 实时 多 媒体 通信 的 基础 。 


© 





5.5 小 结 

本 章 描 述 了 四 种 完全 不 同 的 端 到 端 协议 。 第 一 类 协议 是 一 个 简单 的 多 路 分 解 协议 ， 以 
UDP 为 代表 。 所 有 这 样 的 协议 所 做 的 事情 是 将 报 文 分 发 给 基于 端口 号 的 相应 的 应 用 程序 
进程 。 它 并 没有 以 任何 方式 增强 底层 网 络 的 尽力 而 为 传输 服务 模型 ， 或 者 换个 方式 说 ， 它 
为 应 用 程序 提供 了 一 个 不 可 靠 的、 无 连接 的 数据 报 服 务 。 
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第 二 类 是 一 个 可 靠 的 字 节 流 协议 ， 这 类 协议 的 具体 例子 是 TCP。 这 样 的 协议 面临 的 问 
题 是 恢复 网 络 丢 失 的 报 文 ， 按 照发 送 的 顺序 递交 报 文 ， 以 及 允许 接收 方 对 发 送 方 进行 流量 
控制 。TCP 使 用 带 有 通知 窗口 的 基本 滑动 窗口 算法 来 实现 这 些 功 能 。 对 这 个 协议 男 一 个 
要 注意 的 事项 是 其 精确 的 超时 / 重 传 机 制 的 重要 性 。 有 趣 的 是 ， 虽然 TCP 是 单个 协议 ， 但 
它 至 少 采 用 了 五 种 不 同 的 算法 一 一 滑动 窗口 、Nagle、 三 次 握手 、Karn/Partridge 和 Ja- 
cobson/Karels 一 一 每 种 算法 对 于 端 到 端 协议 都 是 有 价值 的 。 

第 三 类 传输 协议 是 请 求 / 应 答 协议 ， 它 是 RPC 的 基础 。 这 类 协议 必须 将 请 求 分 发 给 正 
确 的 远程 过 程 ， 并 将 应 答 与 相应 的 请 求 相 匹配 。 它 们 可 能 提供 可 靠 性 ， 如 最 多 一 次 语义 ， 
也 可 能 通过 报 文 的 分 段 和 重组 来 支持 大 尺寸 的 报 文 。 

最 后 一 类 传输 协议 针对 的 是 涉及 多 媒体 数据 (例如 音频 和 视频 ) 并 且 对 实时 传输 有 需 
求 的 应 用 程序 类 ， 这 样 的 传输 协议 需要 考虑 单个 媒体 流 的 时 间 信 息 以 及 多 媒体 流 的 同步 。 
它 也 要 给 上 层 (例如 ， 应 用 层 ) 提供 关于 数据 丢失 的 信息 (因为 通常 没有 足够 的 时 间 来 重 
传 丢 失 的 分 组 )， 以 便 使 用 合适 的 针对 特定 应 用 的 恢复 方法 和 避免 拥塞 的 方法 。 已 经 外 开 
发 出 来 的 能 够 满足 这 些 需 要 的 协议 是 RTP， 它 包括 一 个 称 为 RTCP 的 控制 协议 。 
接 下 来 会 发 生 什 么 : 传输 协议 多 样 性 

读 完 本 章 应 该 清楚 的 是 ， 设 计 传输 协议 是 一 件 复杂 的 事情 。 正 如 我 们 看 到 的 ， 首 先 正 
确实 现 一 个 传输 协议 是 足够 困难 的 ， 但 变化 的 环境 使 这 一 问题 更 加 复杂 。 有 些 变 化 并 不 是 
太 难 预料 〈 例 如 ， 网 络 不 断 变 快 ) ， 但 有 时 一 类 新 应 用 的 出 现 将 改变 对 传输 层 服务 的 要 求 。 
问题 在 于 找到 适应 这 些 变化 的 方法 。 有 时 现 有 协议 可 以 进行 调整 ， 如 为 了 处 理 新 问题 TCP 
选项 的 不 断 演化 。 有 时 又 可 以 创建 新 的 传输 协议 ， 如 RTP 和 SCTP。 重 用 现 有 协议 还 是 创 
建新 协议 ， 这 是 一 个 开放 的 问题 。 | 

除了 对 现 有 协议 稍 作 修改 ， 以 适应 不 断 变 化 的 网 络 环境 或 新 应 用 需求 ， 有 时 我 们 也 在 
现 有 协议 下 调整 应 用 程序 来 适应 变化 。 例 如 ， 需 要 RPC 语义 的 应 用 程序 在 RPC 协议 下 工 
作 得 最 好 ， 而 对 应 用 程序 稍 作 修改 也 能 在 TCP 协议 下 工作 ， 只 不 过 效率 有 一 些 损失 。 在 
网 页 应 用 程序 需要 某 些 RPC 选项 的 今天 ， 这 种 情况 并 不 少见 。 网 络 中 TCP 无 处 不 在 ， 它 
能 胜任 各 种 具有 挑战 性 的 环境 ， 如 穿 过 NAT 设备 和 防火 墙 。 因 此 ， 有 时 在 TCP 上 构建 并 
运行 仿 RPC 的 机 制 更 为 简单 ， 即 使 严格 来 说 它 不 是 最 有 效 的 方法 。 

同样 ， 似 乎 RTP 应 该 是 传输 视频 流 的 首选 协议 ， 它 也 仍然 被 广泛 使 用 着 ,但 使 用 
TCP CM HTTP ) 来 提供 流 媒体 视频 内 容 的 趋势 也 很 强烈 。 采 用 这 种 方式 来 传输 娱乐 视频 
(如 在 网 页 浏览 器 上 观看 的 电视 节目 和 电影 ) 的 做 法 渐渐 流行 。 说 该 方法 将 走向 终点 还 言 
之 尚 旱 ， 但 不 难 想 象 TCP 是 未 来 用 于 视频 传输 的 主要 传输 协议 。 

回顾 第 1 章 讨 论 的 互联 网 “沙漏 ”结构 ， 很 明显 ， 传 输 协议 的 多 样 性 正 符合 互联 网 设 
计 师 的 预期 。 但 是 ， 现 如 今 TCP 几乎 成 为 沙漏 中 “ 腰 ” 的 一 部 分 ， 因 为 TCP 提供 无 所 不 
在 的 服务 ， 而 大 多 数 应 用 程序 又 很 依赖 这 些 服务 。 


扩展 阅读 


TCP 无 疑 是 一 个 复杂 的 协议 ， 实 际 上 在 本 章 还 有 一 些 细节 没有 阐述 。 因 此 本 音 的 推 
荐 阅读 中 包括 TCP 的 原始 规范 。 推 荐 这 个 规范 的 目的 不 是 为 了 补充 缺少 的 细节 ， 而 是 向 
你 展示 一 个 真正 好 的 协议 规范 是 什么 样子 。 由 Birrell 和 Nelson 写 的 论文 是 RPC 的 开山 之 
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WE. Clark 和 Tennenhouse 的 论文 是 关于 协议 体系 结构 的 ， 介 绍 对 设计 RTP 产生 了 灵感 的 
应 用 层 框 架 (Application Layer Framing) 的 概念 ， 这 篇 论文 在 设计 随 应 用 需求 而 改变 的 
协议 方面 非常 有 见地 。 

。 USC-ISI Transmission Control Protocol. Request for Comments 793, September 1981. 

e Birrell, A. , and B. Nelson. Implementing remote ae calls. ACM Transac- 
tions on Computer Systems 2 (1): 39-59, February 1984. 

e Clark, D. , and D. Tennenhouse. Architectural considerations for a new generation 
of protocols. Proceedings of the SIGCOMM’90 Symposium, pages 200-208, Sep- 
tember 1990. 

除了 协议 规范 ， 关 于 TCP 最 完整 的 描述 ， 包 括 它 在 Unix 中 的 实现 ， 可 以 在 Stevens 
的 著作 [Ste94b] 和 [SW95] 中 找到 。 在 Comer 和 Stevens 的 TCP/IP 系列 丛书 的 第 3 卷 
中 ， 摘 述 了 在 TCP 和 . UDP 上 用 Posix 套 接 字 接口 LCS00], Windows 套 接 字 接 口 
LCS97] 和 BSD 套 接 字 接 口 [CS96]」 怎样 编写 客户 端 / 服 务 器 应 用 程序 。 在 帮助 概述 
LOY02 | 中 描述 了 SCTP 作为 可 靠 传输 协议 与 TCP 在 设计 方面 的 不 同 ， 并 在 [Ste07」 中 
进行 了 详细 说 明 。 | 

多 篇 论文 非常 话 细 地 评估 了 不 同 传输 协议 的 性 能 。 例 如 ，Clark 等 人 的 文章 
[CJRS89] 测量 了 TCP 层 的 处 理 开 销 ，Mosberger 等 人 的 文章 LMPBOI6] 探讨 了 协议 处 
理 开 销 的 局 限 ，Thekkath 和 Levy 的 文章 | TL93] 以 及 Schroeder 和 Burrows 的 文章 
[SB89] 都 非常 详细 地 考察 了 RPC 的 性 能 

原 有 的 TCP 超时 计算 在 TCP 规范 中 有 描述 〈 见 上 面 )，Karn/Partridge 算法 在 
[KP91] 中 描述 ，Jacobson/Karels 算法 在 [Jac88] 中 描述 。 由 Jacobson 等 |JBB92] 是 
义 了 对 TCP 的 扩展 ， 而 O'Malley 和 Peterson poet 论述 了 以 这 样 的 方式 扩展 TCP A 
是 解决 问题 的 正确 方法 。 

有 多 种 分 布 式 操作 系统 已 经 定义 了 它们 自己 的 RPC 协议 。 闭 名 的 例子 包括 由 Cheri- 
ton 和 Zwaenepoel [CZ85] 描述 的 V 系统 ， 由 Ousterhout 等 人 LOCD* 88] 描述 的 Sprite 
系统 ， 以 及 由 Mullender | Mul90] 描述 的 Amoeba 系统 。 

Æ RFC 3550 LSCFJO3] 中 描述 了 RTP, 在 众多 的 其 他 RFC (lan, RFC 3551 
oy 中 描述 了 使 用 RTP 的 各 种 应 用 的 轮廓 。McCanne 和 Jacobson -MJ95) 描述 
vic， 这 是 使 用 RTP 的 一 种 应 用 。 

最 后 ， 下 列 时 常 更 新 的 参考 资料 提供 了 大 量 关 于 传输 协议 和 其 他 协议 的 信息 : 

o http://www. iana. org/protocols/; 包括 所 有 和 选项、 常量、 端口 号 等 各 种 已 定义 的 

互联 网 协议 的 信息 。 除 此 之 外 ， 你 还 可 以 在 这 里 找到 TCP 头 标志 、TCP 选项 ， 以 
及 TCP 和 UDP KAE vig OS. 


>) xii 


1. 如 果 一 个 UDP 数据 报 从 主机 A 的 端口 P 发 送 到 主机 B 的 端口 Q, 但 主机 BRAKA Q 的 进程 ， 
那么 主机 B 返回 一 个 ICMP 端口 不 可 达 的 报 文 给 A。 与 所 有 ICMP 报 文 一 样 ， 这 个 报 文 作为 一 个 整体 
发 给 主机 A, MAG A 上 的 端口 P。 

Ca) 给 出 何 时 一 个 应 用 程序 可 能 希望 接收 到 这 样 的 ICMP 报 文 的 一 个 例子 。 
Cb) 指出 在 你 选择 的 操作 系统 上 ， 应 用 程序 要 接收 到 这 样 的 报 文 需要 做 些 什 么 。 


v 10. 
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Co) 为 什么 将 这 样 的 报 文 直 接 发 送 回 主 机 A 上 的 原始 端口 P 不 是 一 个 好 方法 ? 


. 考虑 一 个 用 于 请 求 文件 的 基于 UDP 的 简单 协议 〈 基 于 不 太 严 格 的 普通 文件 传输 协议 或 TETP)。 客 户 


端 发 送 一 个 初始 文件 请 求 ， 服 务 器 用 第 一 个 数据 分 组 回答 〈 如 果 文 件 可 以 被 发 送 ) 。 然 后 客户 端 和 服 

务 髓 使 用 停止 -等 等 传输 机 制 继续 文件 传输 。 

Ca) 描述 客户 端 请 求 一 个 文件 却 得 到 另外 一 个 文件 的 情况 ， 可 以 允许 客户 应 用 程序 突然 退出 并 在 同一 
端口 重新 开始 。 | 

(b) 对 协议 提出 改进 ， 使 得 这 种 情况 的 发 生 率 大 为 减少 。 


. 设计 一 个 用 于 从 服务 器 检索 文件 的 基于 UDP 的 简单 协议 。 不 必 提 供认 证 ， 可 以 使 用 数据 的 停止 -等 符 


传输 。 你 的 协议 应 该 解决 下 列 问题 : 

(a) 第 一 个 分 组 的 拷贝 不 应 再 建立 一 个 “连接 ”。 

(b) 最 后 一 个 ACK 的 丢失 不 应 使 服务 需 怀 疑 传 输 是 否 成 功 。 
Co) 来 自 过 去 连接 的 迟到 分 组 不 应 被 解释 为 当前 连接 的 一 部 分 。 


. 本 章 解 释 了 TCP 连接 断 开 期 间 状 态 转 换 的 三 种 顺序 。 还 可 能 有 第 四 种 顺序 ， 即 它 经 过 为 外 一 个 弧 


(没有 显示 在 图 5-7 中 ), 从 FIN WAIT 1 到 TIME WAIT HA FIN+ ACK/ACK, 解释 导致 这 
第 四 种 状态 转换 顺序 的 环境 。 


. 关闭 一 个 TCP 连接 时 ,为 什么 从 LAST ACK 到 CLOSED 的 转换 不 必 有 两 个 段 生 存 期 (two-seg- 


ment-lifetime) 的 超时 ? 


. 接收 0 通知 窗口 的 一 个 TCP 连接 的 发 送 方 定期 检查 接收 方 ， 以 便 发 现 窗 口 什么 时 候 变 为 非 0。 为 什么 


当 接 收 方 人 负责 报告 通知 窗口 变 为 非 0〈 即 发 送 方 不 检查 ) 时 ， 它 需要 一 个 额外 的 定时 带 ? 


. 阅读 Unix 或 Windows 应 用 程序 netstat 的 使 用 手册 。 使 用 netstat 查看 本 地 TCP 的 连接 状态 。 找 出 关 


闭 连 接 在 TIME WAIT 中 花费 的 时 间 。 


. TCP 首部 的 序号 字段 长 32 位 ， 足 以 处 理 40 亿 字 节 的 数据 。 即 使 在 一 个 连接 上 有 许多 序号 的 数据 从 未 


被 传送 过 ， 为 什么 序号 仍旧 可 能 从 2—1 回 绕 到 0? 


. 假设 你 受 雇 设 计 一 个 使 用 滑动 窗口 的 可 靠 的 字 节 流 协议 如 TCP) 。 这 个 协议 将 运行 在 1Gbps 的 网 络 


上 。 网 络 的 RTT 是 100ms， 且 数据 段 的 最 大 生存 期 是 30s。 

Ca) 协议 首部 的 AdvertisedWindow 字段 和 SequenceNum 字段 中 应 包含 多 少 位 ? 

Cb) 怎样 确定 上 述 数 值 ， 哪 个 值 可 能 不 太 确 定 ? 

假设 你 正在 设计 一 个 使 用 滑动 窗口 的 可 靠 字 节 流 协议 〈 如 TCP) 。 这 个 协议 运行 在 1Gbps 的 网 络 上 。 
网 络 的 RTT 是 140ms， 且 最 大 段 生 存 期 是 60s。 协 议 首部 的 AdvertisedWindow 字段 和 SequenceNum 
字段 各 应 包含 多 少 位 ? 
假设 一 台 主 机 想 要 通过 发 送 分 组 并 测量 接收 的 百分比 的 方法 建立 一 个 可 靠 的 链 路 ， 例 如 由 路 由 器 来 
(IK PE. PARE TCP 连接 上 做 这 件 事 的 困难 。 
假设 TCP 运行 在 一 个 1Gbps 的 链 路 上 。 
(a) 假设 TCP 能 持续 利用 全 部 带宽 ，TCP 序号 完全 回 绕 最 快 需要 多 长 时 间 ? 
(b)》 如 果 在 上 面 算 出 的 回 绕 时 间 内 ， 一 个 附加 的 32 位 时 间 惟 字段 增 量 1 000 次 。 这 个 时 标 回 绕 需 要 

多 长 时 间 ? | 

假设 TCP 运行 在 一 个 40Gbps 的 STS-768 链 路 上 。 
Ca) 假设 TCP 能 持续 利用 全 部 带宽 ，TCP 序号 完全 回 绕 需 要 多 长 时 间 ? 
Cb) 如果 在 你 上 面 算出 的 回 绕 时 间 内 ， 一 个 附加 的 32 位 时 标 字 段 增 量 1 000 次 。 这 个 时 标 回 绕 需 要 

多 长 时 间 ? 

如 果 主 机 A 从 同一 端口 接收 远程 主机 B 的 两 个 SYN 分 组 ,第 二 个 SYN 分 组 可 能 是 前 一 个 SYN 分 组 
的 重 传 ， 或 是 在 B 崩溃 并 重启 动 后 一 个 全 新 的 连接 请 求 。 
Ca) 描述 主机 A 看 到 的 这 两 种 情况 的 区 别 。 
Cb) 给 出 TCP 层 在 接收 一 个 SYN 分 组 时 需要 做 的 事情 的 算法 描述 。 考 虑 上 面 的 重 传 /新 连接 的 情况 ， 
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以 及 不 监听 目标 端口 的 可 能 性 。 

假设 xz 和 y 是 两 个 TCP 序号 。 写 一 个 函数 确定 zx 是 在 y 之 前 到 达 (RFC 793 的 表示 方法 是 “x 二 之 

yD 还 是 在 y 之 后 到 达 ， 你 的 解决 方案 应 在 序号 回 绕 的 情况 下 也 有 效 。 

假设 套 接 字 AM B 间 有 一 个 空闲 的 TCP 连接 。 第 三 方 已 经 窃听 并 知道 两 端的 当前 序号 。 

(a) 假设 第 三 方向 A 发 送 一 个 伪造 的 看 起 来 发 自己 的 分 组 ， 并 带 有 100 字 节 的 新 数据 。 此 时 会 发 生 
什么 情况 ? GER: 查阅 RFC 793， 了 解 当 接 收 到 一 个 不 是 “可 接受 的 ACK” 的 ACK 时 ，TCP 
怎么 处 理 。) 

(b) 假设 第 三 方向 每 一 端 都 发 送 一 个 伪造 的 看 起 来 发 自 另 一 端的 分 组 。 这 时 会 发 生 什 么 情况 ?如 果 A 
后 来 发 送 200 字 节 的 数据 给 BB 会 发 生 什 么 情况 ? 

假设 A 方 经 无 线 网 连接 到 因特网 上 ,使 用 DHCP 来 分 配 IP 地 址 。A 打开 多 个 Telnet 连接 (使 用 

TCP) ， 随 后 断 开 无 线 网 连接 。 接 着 B 方 拨号 进入 并 被 赋予 和 A 相同 的 地址 。 假设 B 能 够 猜 到 A 

已 连接 到 什么 主机 ， 描 述 一 个 探测 序列 ， 能 够 使 B 获 得 足够 的 状态 信息 以 继续 A 的 连接 。 

诊断 程序 一 般 能 够 用 来 记录 对 某 个 《〈 主 机 ， 端 口 》 的 每 个 TCP 连接 的 前 100 个 字 节 。 简 述 对 每 个 接 

收 到 的 TCP 分 组 P 必须 做 什么 ， 才 能 确定 它 是 否 包 含 对 主机 HOST、 端 口 PORT 的 连接 的 前 100 个 

字 节 数据 。 假 设 卫 的 首部 是 P. IPHEAD，TCP 首部 是 P. TCPHEAD， 且 首部 字段 命名 如 图 3-16 和 

图 5-4 R. GER: 为 得 到 初始 化 序号 〈ISN) ， 你 必须 检查 每 个 分 组 的 SYN 位 的 设置 。 忽 略 序号 最 

终 被 重用 的 事实 。) | | 

如 果 源 地 址 为 B 的 分 组 到 达 主 机 A， 那 么 它 将 很 容易 被 任何 第 三 方 主机 C 伪造 。 但 是 如 果 A 接受 来 

A B 的 TCP 连接 ， 那 么 在 三 次 握手 过 程 中 ，A 向 B 的 地 址 发 送 ISNA 并 且 接 收 它 的 一 个 确认 。 如 果 

C 不 在 能 窃听 ISNA 的 位 置 ， 则 C 不 能 伪造 B 的 响应 。 

然而 ， 选 择 ISNA 的 算法 确实 给 其 他 不 相关 主机 提供 了 一 个 猜测 它 的 平等 机 会 。 尤 其 是 A 基于 连接 

时 的 时 钟 值 选择 ISNA. RFC 793 指出 这 个 时 钟 值 每 4ms 增加 1， 通用 的 Berkeley 实现 曾 对 此 简化 为 

每 秒 钟 一 次 增加 250 000 (或 256 000). 

(a) 给 出 这 个 简化 的 每 秒 增 加 一 次 的 实现 ,解释 任意 主机 C 至 少 在 打开 TCP 时 如 何 假扮 B。 你 可 以 
假设 BB 不 对 A 因 受骗 发 送 给 它 的 SYN + ACK 分 组 做 啊 应 。 

(b) 假设 实际 的 RTT 可 以 估计 为 40ms 以 内 ， 使 用 非 简化 的 “每 4ms 增加 一 次 ”的 TCP 实现 ， 你 期 
望 实现 (a) 中 策略 要 尝试 多 少 次 ? 

在 绝 大 多 数 TCP 的 实现 中 都 内 置 有 Nagle 算法 ， 它 要 求 发 送 方 不 发 送 不 满 整 段 的 数据 〈 即 使 是 被 

PUSH 操作 发 送 的 ) ， 直 到 积累 够 一 个 完整 的 数据 段 或 最 近 未 确认 的 ACK 到 达 。 

(a) 假设 通过 RTT 为 4 1s 的 TCP 连接 发 送 字母 串 abcdefghi， 每 秒 发 送 一 个 字母 。 请 画 出 时 间 线 表 
明 何 时 发 送 每 个 分 组 ， 以 及 其 中 包含 什么 。 

b) 如 果 在 一 条 全 双 工 Telnet 连接 上 发 送 以 上 内 容 ， 用 户 会 看 到 什么 ? 

(c) 假设 通过 这 条 连接 发 送 鼠 标 位 置 的 变化 。 若 在 每 个 RTT 期 间 发 送 多 次 鼠标 位 置 变化 ， 那 么 在 用 
Nagle 算法 和 不 用 Nagle 算法 的 情况 下 ， 用 户 将 会 看 到 鼠标 是 如 何 移动 的 ? 

假设 客户 端 C 不 断 地 通过 TCP 连接 服务 器 S 上 的 给 定 端口 ， 并 且 每 次 由 C 起 动 关 闭 。 

(a) 在 C 使 它 的 所 有 可 用 端口 处 于 TIME WAIT 状态 之 前 ， 每 秒 钟 可 以 建立 多 少 个 TCP 连接 ? 假 
设 客户 端的 短期 端口 的 范围 为 1024~5119， 并 假设 TIME - WAIT 持续 时 间 是 60s。 

(b) Berkeley 的 TCP 实现 通常 允许 如 果 旧 连接 实例 使 用 的 最 高 序号 比 新 实例 使 用 的 ISN 小 ， 那 么 在 
TIME _WAIT 到 期 之 前 ， 一 个 处 于 TIME _ WAIT 状态 的 套 接 字 可 以 再 次 打开 ， 这 解决 了 旧 数 
据 被 当 作 新 数据 接收 的 问题 。 但 是 ，TIME WAIT 也 用 于 处 理 迟 到 的 最 后 FIN 的 目的 。 这 样 的 
实现 必须 怎么 做 才能 解决 这 个 问题 ， 并 仍然 完全 满足 TCP 的 要 求 ， 即 FIN 可 以 在 一 个 连接 的 
TIME _ WAIT 状态 收 到 同一 响应 之 前 或 期 间 的 任何 时 刻 被 发 送 ? 

解释 为 什么 如 果 服 务 器 先 于 客户 端 启动 关闭 ， 则 TIME _ WAIT 会 是 很 严重 的 问题 。 描 述 一 种 会 发 生 

这 种 问题 的 情况 。 
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Karn 和 Partridge 提出 指数 增长 超时 值 的 理由 是 什么 ?特别 要 说 明 为 什么 不 用 线性 (或 更 慢 ) 增长 ? 

Jacobson/Karels 算法 将 TimeOut 设 为 4 倍 平均 偏差 而 不 是 平均 值 。 假 设 单个 分 组 的 往返 时 间 遵 循 统 

计 正 态 分 布 ， 即 4 倍 平 均 偏差 都 是 x 标准 偏差 。 使 用 统计 表 计 算 一 个 分 组 会 超时 到 达 的 概率 是 多 少 ， 

假设 一 个 窗口 大 小 为 1 的 TCP 连接， 每 隔 一 个 分 组 丢弃 一 个 分 组 。 到 达 的 分 组 的 RTT 二 ls。 考虑 下 

面 两 种 情况 各 会 发 生 什 么 ? 对 TimeOut 会 发 生 什 么 ? 

(a) 收 到 分 组 后 ， 从 停止 的 地 方 开始 ， 假 设 EstimatedRTT 被 初始 化 为 预定 的 超时 值 ， 而 且 TimeOut 
是 它 的 2 倍 。 

(b) 收 到 分 组 后 ， 重 新 将 TimeOut 初始 化 为 上 次 超时 间隔 使 用 的 指数 退 避 的 值 。 

以 下 4 道 习题 中 的 计算 用 电子 表格 是 很 简单 的 。 

假设 在 TCP 的 自 适 应 重 传 机 制 中 ，EstimatedRTT 在 某 时 刻 为 4. 0s， 其 后 测 得 的 RTT ae 1.0s。 按 

照 Jacobson/ Karels 的 计算 ，TimeOut 要 多 长 时 间 才 会 变 得 小 于 4. 0s? 假设 请 你 给 出 一 个 合理 的 

Deviation 初始 值 ， 你 的 答案 对 这 个 选择 的 敏感 度 如 何 ? 使 用 O= 1/8. 

假设 在 TCP 的 目 适应 sae, EstimatedRTT 在 某 时 刻 为 90， 其 后 测 得 的 RTT 2A 200, RR 

Jacobson/Karels 算法 的 计算 ， TimeOut 要 多 长 时 间 才 会 变 得 小 于 300? 假设 Deviation 初始 值 为 25， 

使 用 S= 1/8. 

假设 TCP 测 得 的 RTT ERTES NS RTT 是 4.0s 以 外 ， 其 他 都 是 1.0s。 最 大 的 N 大约 是 多 少 才 

不 会 在 稳定 状态 〈 即 Jacobson/Karels 算法 中 的 TimeOut 保持 大 于 4.0s) 时 发 生 超 时 ? 使 用 6 王 1/8。 

假设 TCP 正在 测量 的 RTT 一 直 是 1.0s， 平 均 偏差 是 0. ls. RA RTT 跳 到 5. Os, 没有 偏差 。 比 较 原 

始 算法 和 Jacobson/Karels 算法 在 计算 TimeOut 时 有 什么 不 同 ? 特别 地 ， 每 种 算法 各 遇 到 多 少 次 超 

时 ? 计算 得 到 的 最 大 的 TimeOut 是 多 少 ? 使 用 5 二 1/8。 

假设 一 个 TCP 分 段 被 发 送 多 次 ， 我 们 取 SampleRTT 为 最 初 发 送 和 ACK 之 间 的 时 间 ， 如 图 5-10a 所 

示 。 请 说 明 如 果 一 个 TCP 连接 有 一 个 分 组 大 小 的 窗 口 ， 它 每 隔 一 个 分 组 就 委 弃 一 个 分 组 〈 即 每 个 分 

组 传送 两 次 ) ， 那 么 EstimatedRTT 会 增加 到 无 穷 大 。 假设 TimeOut 二 EstimatedRTT， 正 文中 措 述 的 

两 种 算法 会 把 TimeOut HEEK., GER: FetimatedR Ti -Festmad TT BX (SampleRTT— Es- 

timatedRTT) ,) 

假设 当 一 个 TCP 分 段 被 发 送 多 次 时 ， 取 SampleRTT 为 最 近 一 次 传送 和 ACK 之 间 的 时 间 ， 如 图 5-10b 

Prax. (Rete TimeOut 二 2X EstimatedRTT。 描 述 一 种 情况 ， 其 中 没有 分 组 丢失 ,但 EstimatedRTT 收 

全 到 真正 的 RTT 的 1/3， 并 画 出 最 后 稳定 状态 的 示意 图 。 (提示: 真正 的 RTT 是 以 一 个 突然 跳跃 开 

台 ， 这 个 跳跃 刚好 超过 建立 的 TimeOut 值 。) 

查阅 RFC 793， 找 出 如 果 一 个 FIN 或 RST 到 达 但 序号 不 是 NextByteExpected 时 ，TCP 应 该 如 何 响 

应 ? 考虑 序号 在 接收 窗口 内 和 不 在 接收 窗口 内 的 两 种 情况 。 

TIME _ WAIT 的 作用 之 一 是 处 理 很 晚 到 达 的 第 一 个 连接 实例 的 数据 分 组 被 当 作 第 二 个 实例 的 数据 收 

下 的 情况 。 





(a) 对 于 在 没有 TIME _ WAIT 时 发 生 的 这 种 情况 ， 解 释 为 什么 连接 的 主机 在 延迟 的 分 组 被 发 出 以 后 


”但 未 被 传递 之 前 不 得 不 顺序 交换 几 个 分 组 ， 

Cb) 提出 一 种 可 以 导致 这 种 延迟 传递 的 网 络 情况 。 

提出 一 种 对 TCP 的 扩展 ， 使 得 连接 的 一 一 端 可 以 将 它 这 一 端 转交 给 第 三 台 主 机 ;也 就 是 说 ， 如 果 原来 

A 与 B 连 接 ，A 将 它 的 连接 转交 给 C， 那 么 这 以 后 C 将 与 BB 连接 , 而 A 将 不 再 保持 这 个 连接 。 请 说 

明 在 TCP 状态 转换 图 中 所 需 的 新 状态 和 新 转换 ， 以 及 用 到 的 任何 新 分 组 类 型 。 可 以 假设 各 方 都 会 理 

解 这 个 新 选项 。A 在 转交 之 后 应 该 进入 什么 状态 ? 

TCP 的 同时 打开 性 质 是 极 少 用 到 的 。 

(a) 改变 TCP， 使 之 禁用 同时 打开 。 指 出 状态 图 (如果 必要 也 包括 不 在 图 中 的 事件 响应 ) 应 做 哪些 
改变 。 

(b) TCP 可 以 禁用 同时 关闭 吗 ? 
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Cc) 改变 TCP， 使 两 台 主 机 同时 交换 SYN 会 导致 两 个 独立 的 连接 。 指 出 这 要 求 状 态 图 做 什么 改变 ， 
同时 首部 有 必要 做 什么 改变 。 注 意 现在 这 意味 着 在 一 个 给 定 的 《〈 主 机 ， 端 口 》 对 上 存在 多 个 连 
接 。( 可 以 查阅 RFC 1122 第 87 页 的 第 一 个 “讨论 ”项 。) 

TCP 是 一 个 非常 对 称 的 协议 ， 但 是 客户 端 /服务 器 模型 不 是 对 称 的 。 考 虑 一 个 非 对 称 的 TCP 式 的 协 

以 ， 其 中 只 有 服务 器 方 被 赋予 一 个 可 被 应 用 层 看 到 的 端口 号 。 客 户 端的 套 接 字 只 是 能 连 到 服务 器 端 

口 的 抽象 。 

Ca) 提出 一 种 首部 数据 和 连接 的 语义 以 支持 这 种 情况 。 你 将 用 什么 代替 客户 端的 端口 号 ? 


《b) 现在 TIME WAIT 采取 什么 形式 ? 通过 编程 接口 如 何 看 到 这 一 点 ? 假设 客户 端 套 接 字 现在 可 以 


任意 多 次 地 重复 连接 到 给 定 的 服务 器 端口 和 许可 的 资源 上 。 

Cc) 查阅 rsh/rlogin 协议 。 为 什么 上 面 的 设想 将 导致 其 不 可 用 ? 

下 面 的 习题 与 TCP 的 状态 FIN_WAIT_2 有 关 〈 见 图 5-7)。 

(a) 描述 客户 端 怎 样 使 一 个 适当 的 服务 器 无 限期 地 处 于 状态 FIN_WAIT_2。 对 这 种 情况 ， 服 务 器 的 协 
以 需要 有 什么 特性 ? 

(b) 在 某 种 现 有 的 服务 器 上 试验 这 种 情况 。 可 以 写 一 个 桩 客户 程序 ， 或 者 用 一 个 现成 的 可 以 连 到 任意 
一 个 端口 的 Telnet 客户 程序 。 使 用 netstat 工具 验证 服务 器 处 于 状态 FIN_WAIT 2. 

在 RFC 1122 中 关于 TCP 有 以 下 陈述 : 

“一 合 主机 可 以 实现 一 个 “ 半 双 工 ” 的 TCP 关闭 顺序 ， 因 此 一 个 已 经 调用 CLOSE 的 应 用 程序 不 能 继 

续 从 连接 读数 据 。 如 果 这 样 一 台 主 机 在 TCP 中 仍 有 接收 到 的 数据 时 发 出 CLOSE 命令 ， 或 者 调用 

CLOSE 后 TCP 仍 收 到 新 数据 ， 那 么 它 的 TCP 应 该 发 出 一 个 RST 说 明 数 据 丢 失 。” 

描述 包含 以 上 陈述 的 一 种 情景 ， 其 中 被 正在 关闭 的 主机 发 送 〈 而 不 是 发 向 它 ) 的 数据 丢失 。 你 可 以 

假设 远程 主机 在 收 到 RST 时 会 丢弃 已 接收 到 缓冲 区 但 还 未 被 读 出 的 所 有 数据 。 

当 TCP 发 出 (SYN, SequenceNum=zx) 或 (FIN, SequenceNum=-2x) 时 ， 随 后 的 ACK 有 Acknowl- 

edgment 王 zx 十 1; 也 就 是 说 ，SYN 和 FIN 在 序号 空间 中 各 占用 一 个 单位 。 这 样 有 必要 吗 ? 如 果 有 必 

要 ， 请 给 出 一 个 相应 的 Acknowledgment 是 z 而 非 z 十 1 时 会 发 生 混 乱 的 例子 。 如 果 没 有 必要 ， 请 解 

释 为 什么 。 

从 RFC 793 中 查 出 TCP 首部 选项 的 一 般 格 式 。 

(a) 概述 一 种 策略 ， 它 可 以 扩展 选项 可 用 的 空间 以 超出 当前 44 字 节 的 限制 。 

Cb) 提出 一 种 TCP 扩展 ， 人 允许 选项 的 发 送 方 说 明 在 接收 方 不 理解 选项 含义 时 应 做 什么 。 列 出 这 样 几 
种 可 能 有 用 的 接收 方 动作 ， 并 试 着 为 每 个 动作 的 应 用 给 出 一 个 例子 。 

TCP 的 首部 没有 引导 IDFR, 4 TOP 连接 的 一 端 朋 演 并 重启 ， 然 后 发 送 一 个 具有 先前 使 用 过 的 ID 

的 报 文 时 ， 为 什么 不 会 出 现 问题 ? 

假设 使 用 提供 零 次 或 多 次 语义 的 不 可 靠 RPC 协议 实现 远程 文件 系统 安装 。 如 果 收 到 报 文 应 答 ， 就 改 

进 为 至 少 一 次 语义 。 定 义 read(n) 返回 指定 的 第 nn 块 ， 而 不 是 按 顺 序 的 下 一 块 ， 这 种 方式 读 一 次 相 

当 于 读 两 次 ， 而 且 至 少 一 次 语义 也 就 等 同 于 正好 一 次 语义 。 

Ca) 对 于 文件 系统 的 哪些 操作 ， 至 少 一 次 语义 和 正好 一 次 语义 没有 区 别 ? 考虑 open, create, write, 
seek, opendir, readdir, mkdir, delete (aka unlink) 和 rmdir, 

(b) 对 余下 的 操作 ， 哪 些 能 改变 语义 使 至 少 一 次 语义 和 正好 一 次 语义 等 价 ? 文件 系统 的 什么 操作 不 能 
与 至 少 一 次 语义 相 容 ? 

(c) 假设 rmdir 系统 调用 的 语义 是 : 如 果 给 定 的 目录 存在 则 删除 它 ， 和 否则 什么 也 不 做 。 那 么 怎样 写 一 
个 能 区 别 这 两 种 情况 的 删除 目录 的 程序 ? 

基于 RPC 的 NFS 远程 文件 系统 有 时 被 认为 具有 比 期 望 的 write 慢 的 性 能 。 在 NFS H, Rak RPC 

对 客户 端 write 请 求 的 应 答 意 味 着 数据 被 物理 写 人 服务 器 的 磁盘 ， 而 不 只 是 放 人 队列 中 。 

Ca) 如 果 客 户 端 通过 一 条 单独 的 逻辑 CHAN 信道 发 送 所 有 write 请 求 〈 即 使 有 无 限 带宽 )， 解 释 我 们 
可 以 预料 到 的 瓶颈 ， 并 解释 为 什么 使 用 一 个 信道 池 会 有 所 帮助 。 提示: 你 需要 知道 一 点 磁盘 控 
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制 器 的 知识 。) 
Cb) 假设 服务 器 的 应 答 只 意味 着 数据 被 放 和 人 磁盘 队列 。 解 释 为 什么 不 使 用 本 地 磁盘 会 导致 数据 丢失 。 
注意 ， 忽 略 数 据 刚 进 队列 系统 就 崩 演 的 情况 ， 因 为 在 这 种 情况 下 用 本 地 磁盘 也 会 引起 数据 丢失 。 
Cc) 一 个 选择 是 让 服务 器 立即 确认 write 请 求 ， 稍 后 发 送 它 自己 独立 的 请 求 确认 物理 写 操 作 的 完成 。 
请 提出 能 达到 相同 效果 的 不 同 的 RPC 语义 ， 但 是 用 一 个 逻辑 请 求 /应 答 。 
考虑 一 个 使 用 包含 信道 抽象 和 引导 ID 的 RPC 机 制 的 客户 端 和 服务 器 。 
(a) 给 出 一 个 涉及 服务 器 重启 的 方案 ， 在 该 方案 中 RPC 请 求 被 客户 端 发 送 两 次 ， 被 服务 回执 行 两 次 ， 
但 只 有 一 个 ACK, | 
(b) 客户 端 如 何 意识 到 事件 的 发 生 ? 客户 端 能 确信 事件 已 经 发 生 了 吗 ? 
假设 RPC 请 求 正 好 形成 了 “磁盘 块 N 中 字段 X 的 值 以 10% 递 增 ”， 对 正在 执行 的 服务 器 给 定 一 种 机 
制 ， 即 使 在 操作 过 程 中 服务 器 发 生 盎 省 也 能 保证 一 个 到 达 的 请 求 恰 好 执行 一 人 次。 假设 单独 的 磁盘 块 
写 操作 完成 或 块 没 有 改变 ， 也 可 以 假设 一 些 指派 的 “撤销 日 志 ” 块 是 可 用 的 。 你 的 机 制 应 该 包括 
RPC 服务 器 在 重启 时 会 有 什么 操作 。 
考虑 一 个 癌 服务 器 发 送 请 求 的 SunRPC 客户 端 。 





(a) 在 什么 情况 下 ， 客 户 端 能 够 确信 其 请 求 恰好 被 执行 了 一 次 ? 





(b) 假设 希望 把 至 多 一 次 语义 加 到 SunRPC 中 ， 应 做 什么 改变 ? 解释 为 什么 向 现 有 的 首部 添加 一 个 或 
多 个 字段 是 不 够 的 。 
假设 用 TCP 完成 一 个 RPC 协议 的 底层 传输 ， 每 个 TCP 连接 传输 一 个 连续 的 请 求 和 应 管 流 。TCP 


al 


(a) 信道 ID。 Cb) 报 文 ID. 
Coy Sl ID; Cd) 请 求 报 文 类 型 。 
Ce) 应 答 报 文 类 型 。 Cf) 确认 报 文 类 型 。 


(g)“ 你 仍 活跃 着 吗 ” 报 文 类 型 。 | 

其 中 哪些 是 上 层 RPC 协议 必须 提供 的 ? 存在 某 些 相似 的 隐 式 确认 吗 ? 

写 一 个 测试 程序 ， 用 套 接 字 接 口 在 一 对 被 某 种 LAN (例如 以 太 网 、802. 11) 连接 的 UNIX 工作 站 间 

发 送 报 文 。 用 这 个 测试 程序 完成 以 下 实验 。 

(a) 测量 不 同 报 文 天 小 情况 下 〔〈 例 如 ，1 字 节 ，100 字 节 ，200 字 节 ，…，1 000 字 节 ) TCP 和 UDP 
的 往返 时 延 。 | 

(b) 测量 1KB, 2KB, 3KB, =+, 32KB4R 3h TCP 和 UDP 的 吞吐 量 。 绘 出 测 得 的 吞吐 量 和 报 文 大 
小 的 函数 关系 图 。 

Cc) 测量 TCP 从 一 台 主 机 回 另 一 台 主 机 发 送 1MB 数据 的 吞吐 量 。 通 过 循环 发 送 一 定 大 小 的 报 文 来 实 
现 ， 例 如 每 次 发 送 1KB， 重 复 1 024 次 。 用 不 同 大 小 的 报 文 重复 这 个 实验 ， 并 画 出 结果 的 图 形 。 

找 出 RTP 应 用 程序 可 以 完成 以 下 功能 的 情形 : 

。 在 需要 不 同时 间 惟 但 本 质 上 是 同一 时 间 内 发 送 多 个 分 组 。 

。 在 需要 相同 时 间 惟 的 不 同时 间 内 发 送 分 组 。 

结果 ， 在 一 些 情况 下 ，RTP 时 间 截 必须 由 应 用 程序 来 提供 (至少 是 间接 提供 )。 (提示; 考虑 发 送 速 

率 和 播放 速率 可 能 不 匹配 的 情况 。) 

帆 时 间或 声音 样本 时 间 的 时 间 截 时 钟 计量 单位 应 该 有 最 小 的 分 辨 能力 ， 以 确保 精确 的 播放 ， 但 时 间 

单位 通常 是 相当 小 的 ， 这 样 做 的 目的 是 什么 ? 

假设 想 要 从 接收 方 返回 RTCP 报告 ， 其 总 量 不 超过 流出 的 RTP 流 的 5%。 如 果 每 个 报告 是 84 字 节 ， 








RTP 流量 是 320kbps， 有 1 000 个 接收 容器 ， 那 么 接收 方 多 久 能 够 获得 一 个 报告 ? 如 果 有 10 000 个 接 


We A at YE? 
RFC 3550 指明 接收 方 RTCP 报告 间 的 时 间 间 隔 包 括 一 个 随机 因素 以 避免 所 有 接收 方 在 同一 时 间 发 
送 。 如 果 所 有 接收 方 在 其 应 答 时 间 间 隔 的 5%% 的 子 间 隔 内 发 送 ， 到 达 的 上 游 RTCP 流量 将 与 下 游 的 
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RTCP 流量 竞争 。 
Ca) 视频 接收 方 在 发 送 报告 时 可 以 适当 地 等 待 发送， 直到 处 理 并 显示 一 帧 的 高 优先 权 任 务 被 完成 了 。 
这 可 能 意味 着 它们 的 RTCP 传输 在 帧 边界 是 同步 的 。 这 是 值得 重点 关注 的 吗 ? 
Cb) 有 10 个 接收 方 ， 它 们 都 在 一 个 特定 的 5% 子 间隔 内 发 送 的 概率 是 多 少 ? 
Cc) 有 10 个 接收 方 ， 它 们 中 半数 都 在 一 个 特定 的 5% 子 间 隔 内 发 送 的 概率 是 多 少 ? 接收 方 增加 20 FF 
后 ， 它 们 中 半数 都 在 同样 的 5% 子 间隔 内 发 送 的 概率 是 多 少 ? GER: 在 10 个 接收 方 中 选 择 5 个 
有 多 少 种 方法 ?) 
53. 服务 器 如 何 处 理 分 组 丢失 速率 数据 和 接收 方 报告 中 的 抖动 数据 ? 
54. 提出 一 种 决定 何 时 报告 RTP 分 组 丢失 的 机 制 ,将 该 机 制 与 5.2.6 节 中 的 TCP 自 适应 重 传 机 制 进 行 
比较 。 


第 6 章 | 


Computer Networks: A Systems Approach 





造物 主 给 你 美貌 ， 也 给 你 美好 的 品格 。 
| 一 一 威廉 。 莎 士 比 亚 


问题 ， 分配 资源 

到 目前 为 止 ， 为 了 理解 数据 如 何在 异 构 网 络 的 进程 之 间 传输 ， 我 们 已 经 学 习 了 组 成 网 
络 协议 层次 结构 的 足够 多 的 层 。 现 在 我 们 转 到 一 个 贯穿 整个 协议 栈 的 问题 ， 当 用 户 竞争 资 
源 时 ， 如 何 有 效 和 公平 地 分 配 这 些 资源 。 共 享 资 源 包括 链 路 带宽 以 及 路 由 器 或 交换 机 上 的 
缓冲 区 ， 所 有 分 组 都 在 缓冲 区 中 排队 等 待 发 送 。 分 组 在 路 由 器 中 争 用 (contend) 链 路 的 
使 用 权 ， 链 路 上 每 个 参与 争 用 的 分 组 都 被 放 在 队列 中 等 待 通过 链 路 顺序 发 送 。 当 过 多 的 分 
组 争 用 同一 条 链 路 时 ， 队 列 就 会 溢出 ， 分 组 将 不 得 不 被 丢弃 。 如 果 常 常 发 生 分 组 丢失 的 情 
况 ， 就 称 作 网 络 拥塞 (congested)。 大 多 数 的 网 络 提 供 拥 塞 控 制 Ccongestion-control) 机 
制 来 处 理 这 种 情况 。 | | 

拥塞 控制 和 资源 分 配 是 同一 事物 的 两 个 方面 。 一 方面 ， 如 果 网 络 在 资源 分 配方 面 采 取 
积极 的 措施 〈 例 如 ， 在 一 个 特定 的 时 间 周 期 内 调度 某 一 条 虚 电 路 使 用 指定 的 物理 链 路 ) ， 
就 可 以 避免 拥塞 ， 从 而 没有 必要 进行 拥塞 控制 。 然 而 ， 以 任意 的 精度 来 分 配 网 络 资源 都 是 
相当 困难 的 ， 因 为 我 们 讨论 的 资源 分 布 在 整个 网 络 ， 需 要 调度 连接 着 一 系列 路 由 器 的 多 条 链 
路 。 另 一 方面 ， 也 可 以 允许 发 送 方 想 发 多 少数 据 就 发 多 少数 据 ， 然 后 当 拥 塞 发 生 时 将 其 恢 
复 。 这 种 方法 比较 容易 实现 ， 但 它 也 具有 一 定 的 破坏 性 ， 因 为 在 拥塞 控制 前 网 络 可 能 会 丢弃 
许多 分 组 ， 并 且 在 网 络 恰好 发 生 拥 塞 时 ， 即 资源 相对 于 需求 来 说 变 得 缺乏 时 ， 竞 争 用 户 会 最 
强烈 地 感觉 到 对 资源 分 配 的 急切 需求 。 此 外 也 有 一 些 折衷 的 解决 方案 ， 先 做 一 些 不 太 精 确 的 
分 配 决 定 ， 当 然 拥塞 依然 会 发 生 ， 因 此 还 需要 采取 一 些 从 拥塞 中 恢复 的 措施 。 把 这 种 混合 解 
决 方案 称 为 拥塞 控制 还 是 资源 分 配 都 无 关 紧要 ， 从 某 种 意义 上 来 说 ， 它 是 二 者 兼 而 有 之 。 

拥塞 控制 和 资源 分 配 与 主机 和 网 络 设备 〈 如 路 由 器 ) 都 有 关 。 在 网 络 设备 中 可 用 各 种 排 
队 规则 控制 分 组 传送 的 顺序 和 丢弃 哪些 分 组 。 排 队 规则 也 可 以 隔离 通信 量 ， 使 一 个 用 户 的 分 
组 不 会 过 分 地 影响 另 一 个 用 户 的 分 组 。 在 端 主机 上 ， 拥 塞 控制 机 制 协调 源 端 发 送 分 组 的 速度 。 
拥塞 控制 机 制 首先 要 尽力 采取 措施 避免 拥塞 的 出 现 ， 拥 塞 一 旦 发 生 ， 则 要 尽快 消除 拥塞 。 

本 章 首先 概述 拥塞 控制 和 资源 分 配 。 然 后 讨论 网 络 内 部 路 由 器 上 可 实现 的 不 同 排队 规 
则 ， 接 着 描述 一 个 在 主机 上 由 TCP 提供 的 拥塞 控制 算法 。6.4 节 探 讨 与 路 由 器 和 主机 都 相 
关 的 各 种 技术 ， 目 的 是 在 拥塞 成 为 一 个 问题 之 前 予以 避免 。 本 章 最 后 考察 服务 质量 (qual- 
ity of service) 涉及 的 广泛 领域 。 我 们 考虑 不 同 应 用 对 网 络 中 资源 分 配 的 不 同 需求 级 别 ， 
同时 描述 应 用 请 求 资 源 和 网 络 满足 请 求 的 各 种 方法 。 


6.1 资源 分 配 问 题 | 
资源 分 配 和 拥塞 控制 是 复杂 的 问题 ， 从 设计 第 一 个 网 络 以 来 它们 就 一 直 是 许多 研究 的 主 
题 。 如 今 它 们 依然 是 活跃 的 研究 领域 。 使 这 些 问 题 如 此 复杂 的 因素 之 一 是 ， 它 们 不 能 被 划分 
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到 协议 层次 结构 的 某 一 层 上 。 资 源 分 配 有 一 部 分 在 网 络 中 的 路 由 器 、 交 换 机 和 链 路 上 实现 ， 
男 一 部 分 在 端 主 机 上 运行 的 传输 屋 协议 中 实现 。 端 系统 可 能 使 用 信 令 协议 向 网 络 节 点 发 送 资 
源 请 求 ， 网 络 节 点 将 可 用 资源 的 信息 反馈 给 它 。 本 章 的 一 个 主要 目标 是 定义 一 个 框架 ， 使 得 
这 些 机 制 在 其 中 是 可 以 理解 的 ， 同 时 对 这 些 机 制 中 有 代表 性 的 实例 给 出 有 关 细 节 。 

在 继续 讨论 之 前 ， 我 们 先 解 释 几 个 术语 的 含义 。 资 源 分 配 (resource allocation) 是 指 一 
个 过 程 ， 网 络 设备 通过 它 来 尽量 满足 应 用 对 网 络 资源 的 竞争 需求 ， 这 里 的 资源 主要 指 链 路 带 
宽 和 路 由 天 或 交换 机 上 的 缓冲 区 空间 。 当 然 ， 它 常常 不 能 满足 所 有 需求 ， 即 一 些 用 户 或 应 用 
获得 的 网 络 资源 可 能 比 它们 需要 的 少 。 部 分 资源 分 配 问题 在 于 何 时 说 不 以 及 对 谁 说 不 。 

我 们 用 拥塞 控制 (congestion control) 这 个 术语 来 描述 网 络 节 点 为 防止 和 响应 过 载 状 
态 所 做 的 工作 。 由 于 拥塞 对 每 个 人 来 说 一 般 都 不 是 好 事情 ， 所 以 当务之急 是 使 拥塞 下 降 ， 
或 者 首先 防止 它 的 出 现 。 说 服 少数 主机 停止 发 送 从 而 改善 其 他 每 台 主 机 的 状况 ， 就 可 以 简 
单 地 实现 拥塞 控制 。 但 是 对 于 拥塞 控制 机 制 而 言 ， 或 许 更 注重 公平 的 观念 ， 换 言 之 ， 它 们 
试图 让 所 有 用 户 分 担 困 难 ， 而 不 是 只 让 几 个 用 户 承 担 很 大 的 困难 。 于 是 我 们 看 到 现在 许多 
拥塞 控制 机 制 中 都 引入 了 资源 分 配 的 概念 。 

理解 流量 控制 和 拥塞 控制 的 区 别 也 是 非常 重要 的 。 正 如 我 们 在 2. 5 节 看 到 的 ， 流 量 控 
制 是 为 了 使 快速 的 发 送 方 不 能 超出 慢 速 的 接收 方 。 与 之 相反 ， 拥 塞 控制 是 考虑 到 网 络 某 些 
点 上 资源 的 缺乏 ， 因 而 阻止 一 组 发 送 方 向 网 络 中 发 送 过 多 的 数据 。 这 两 个 概念 经 常 混淆 ， 
然而 正如 我 们 将 看 到 的 ， 它 们 也 会 共用 某 些 机 制 。 


6.1.1 网 络 模型 


首先 我 们 定义 网 络 体系 结构 的 三 个 主要 特性 。 在 很 大 程度 上 ， 这 是 对 前 儿 章 提 到 的 有 
关 资 源 分 配 问 题 的 总 结 。 

1. 分 组 交换 网 

我 们 来 考虑 在 由 多 链 路 和 交换 机 (或 路 由 絮 ) 组 成 的 分 组 交换 网 (或 互联 网 ) 中 的 资 
源 分 配 。 本 章 描 述 的 大 多 数 机 制 是 为 因特网 上 的 使 用 而 设计 的 ， 因 此 最 初 的 定义 都 是 用 路 
由 器 而 不 是 交换 机 ， 在 我 们 的 讨论 中 都 用 路 由 器 outer) 这 一 术语 。 不 论 是 网 络 还 是 互 
联网 ， 问 题 基 本 上 是 相同 的 。 

在 这 样 的 环境 中 ， 一 个 给 定 源 可 能 在 立即 输出 链 路 上 有 足够 的 容量 来 发 送 分 组 ， 但 到 
了 网 络 中 间 的 某 处 ， 它 的 分 组 会 遇 到 一 条 正 被 许多 不 同 通 信 源 使 用 的 链 路 。 图 6-1 描述 了 
这 种 情况 ， 两 条 高 速 链 路 正 传输 给 一 条 低速 链 路 。 这 与 像 以 太 网 和 无 线 网 这 样 的 共享 访问 
网 络 形成 对 比 ， 在 共享 访问 网 络 中 ， 源 可 以 直接 观察 网 络 上 的 通信 和 量 并 决定 是 否 发 送 一 个 
分 组 。 我 们 已 经 见 过 用 于 在 共享 访问 网 络 上 分 配 带 宽 的 算法 〈 第 2 章 ) 。 从 某 种 意义 上 说 ， 
这 些 访 问 控制 算法 与 交换 网 中 的 拥塞 控制 算法 类 似 。 

结论 ”注意 拥塞 控制 与 路 由 选择 不 同 。 虽 然 对 拥塞 的 链 路 确实 可 由 路 由 传播 协议 

赋予 一 个 大 的 边 权 值 ， 其 结果 是 路 由 器 将 绕 过 该 链 路 ， 但 是 “ 绕 过 ”拥塞 链 路 基 

本 没有 解决 拥塞 的 问题 。 为 清楚 这 一 点 ， 我 们 只 需 看 图 6-1 所 示 的 简单 网 络 ， 图 

中 所 有 通信 量 都 必须 流 经 同一 路 由 器 到 达 目 的 地 。 尽 管 这 是 一 个 极端 的 例子 ， 但 

某 台 路 由 器 不 能 被 绕 过 的 情况 是 常见 的 。 呈 这 台 路 由 器 会 变 成 拥塞 的 ， 而 没有 任 


© Internet 上 的 路 由 是 非常 复杂 的 ， 最 好 的 情况 就 是 获得 合理 的 路 由 方向 ， 且 没有 形成 路 由 回路 。 绕 过 拥塞 的 路 
由 相当 于 是 蛋糕 上 的 糖衣 。 
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何 路 由 机 制 可 以 解决 这 个 问题 。 这 种 拥塞 的 路 由 器 有 时 称 为 瓶颈 (bottleneck) 
路 由 器 。 





| 1.5Mbps TI1 链 路 


图 6-1 一 个 洲 在 的 瓶颈 路 由 此 


2. 无 连接 流 

在 我 们 讨论 的 大 多 数 情 况 下 ， 假 设 网 络 基本 上 是 无 连接 的 ， 任 何 面 向 连接 的 服务 均 在 
端 主机 上 运行 的 传输 协议 中 实现 (我 们 稍 后 解释 “基本 上 ”的 含义 )。 这 正 是 因特网 的 模 
型 ， 其 中 IP 提供 无 连接 数据 报 传输 服务 ， 而 TCP 实现 端 到 端的 连接 抽象 。 请 注意 这 一 假 
设 不 包括 像 X. 25 ( 见 3. 1.2 节 ) 这 样 的 虚 电 路 网 络 。 在 建立 虚 电 路 时 ， 一 个 连接 建立 报 
文 将 穿越 网 络 。 这 个 建立 报 文 为 每 台 路 由 器 的 连接 保留 一 系列 缓冲 区 ， 从 而 提供 一 种 拥塞 
控制 形式 一 一 只 有 在 每 台 路 由 器 上 都 能 分 配 足 够 的 缓冲 区 时 ， 连 接 才 能 建立 。 这 种 方法 的 
主要 缺点 是 导致 资源 的 不 充分 利用 一 一 为 某 个 特定 的 电路 保留 的 缓冲 区 即使 在 空闲 时 也 不 
能 被 其 他 传输 使 用 。 本 章 重 点 讨论 的 是 在 一 个 互联 网 中 使 用 的 资源 分 配方 法 ， 因 而 我 们 主 
要 关注 无 连接 网 络 。 | | | 

因为 我 们 将 网 络 分 类 为 无 连接 和 面向 连接 时 是 过 于 严格 的 ， 在 两 者 之 间 有 一 段 灰色 区 
域 ， 所 以 我 们 需要 界定 无 连接 (connection-less) 这 一 术语 。 特别 是 无 连接 网 络 过 强 地 假 
定 所 有 数据 报 是 完全 独立 的 。 虽 然 数据 报 独立 地 进行 交换 ， 但 是 在 某 对 特定 的 主机 间 的 数 
据 报 流通 常 要 经 过 一 系列 特定 的 路 由 器 。 所 谓 流 Cow) 是 指 在 源 和 目的 主机 对 之 间 发 送 
的 一 系列 分 组 ， 它 们 党 相同 的 路 由 经 过 网 络 。 在 资源 分 配 问题 中 ， 流 是 个 十 分 重要 的 抽象 
概念 ， 本 章 将 会 用 到 。 | 

流 抽象 的 最 大 优势 之 一 是 它 可 以 有 不 同 粒度 的 定义 。 例 如 ， 流 可 以 是 主机 到 主机 的 - 
( 即 有 相同 的 源 和 目的 地 主机 地 址 )， 或 是 进 
程 到 进程 的 〈 即 有 相同 的 源 和 目的 地 主机 / 
端口 对 ) 。 在 后 一 种 情况 中 ， 流 与 我 们 在 本 
书 中 一 直 使 用 的 信道 的 概念 基本 上 是 相同 
的 。 我 们 引进 流 这 个 新 术语 是 因为 对 网 络 中 
的 路 由 器 而 言 ， 流 是 可 见 的 ， 而 信道 只 是 一 
个 端 到 端的 抽象 概念 而 已 。 图 6-2 描述 了 多 
个 流通 过 一 组 路 由 器 的 过 程 。 

因为 有 多 个 相关 分 组 流 经 过 每 台 路 由 
器 ， 所 以 有 时 为 每 个 流 保存 一 些 状 态 信息 是 图 6-2 ”多 个 流通 过 一 组 路 由 器 
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”有 意义 的 ， 可 以 用 这 些 信息 对 属于 这 个 流 的 分 组 做 资源 分 配 决 定 。 这 些 状态 有 时 称 为 软 状 
态 (soft state) ， 软 状态 和 硬 状 态 的 主要 差别 是 软 状态 并 不 总 是 需要 用 信念 显 式 地 创建 或 
删除 。 纯 粹 的 无 连接 网 络 在 路 由 器 上 不 维护 任何 状态 ， 而 纯粹 的 面向 连接 网 络 在 路 由 器 上 
维护 硬 状态 ， 软 状态 则 处 于 两 者 之 间 。 一 般 情况 下 ， 网 络 的 正确 操作 并 不 依赖 于 当前 的 软 
状态 (每 个 分 组 不 考虑 软 状态 时 ， 依 然 能 正确 地 路 由 )， 但 是 如 果 路 由 器 正在 维护 某 个 流 
的 软 状态 信息 ， 而 某 个 分 组 又 恰好 属于 这 个 流 的 话 ， 那 么 路 由 器 最 好 能 处 理 这 个 分 组 。 

注意 一 个 流 既 可 以 隐 式 地 定义 ， 也 可 以 显 式 地 建立 。 对 于 前 者 ， 路 由 器 检查 每 个 经 过 
的 分 组 的 首部 中 的 地 址 ， 若 观测 出 有 相同 的 源 和 目的 地 的 分 组 ， 就 将 这 些 分 组 当 作 属于 同 
一 个 流 来 对 待 ， 以 便 进行 拥塞 控制 。 对 于 后 者 ， 源 在 网 上 发 送 一 个 建立 流 的 报 文 ， 声 明 将 
启动 一 个 分 组 流 。 然 而 对 于 显 式 建立 的 流 和 面向 连接 网 络 中 的 一 个 连接 是 否 相 同 ， 还 是 有 
争议 的 。 我 们 之 所 以 提 到 这 一 点 ， 是 因为 即使 是 显 式 建立 的 流 也 并 不 意味 着 任何 端 到 端的 
语义 ， 尤 其 是 它 并 不 意味 着 可 靠 而 有 序 的 虚 电 路 传输 。 它 的 存在 仅仅 是 用 于 资源 分 配 的 目 
的 。 在 本 章 我 们 会 看 到 隐 式 的 流 和 显 式 的 流 。 

3. 服务 模型 | 

本 章 前 面 的 部 分 将 集中 讨论 采用 因特网 尽力 而 为 服务 模型 的 机 制 。 在 尽力 而 为 服务 模 
型 中 ， 以 完全 相同 的 方式 对 待 每 个 分 组 ， 端 主机 没有 机 会 要 求 网 络 对 某 个 流 提 供 特 殊 保证 
或 优先 服务 。 定 义 一 个 支持 某 种 优先 服务 或 特殊 保证 的 服务 模型 ， 比 如 保证 视频 数据 流 所 
mipo., 将 是 6.5 PWN ER, MPS RH RES MIRA MS (Qualities of Serv- 
ice，QoS) 。 正 如 我 们 将 看 到 的 ， 实 际 上 有 一 个 可 能 性 的 范围 ， 这 个 范围 从 纯粹 的 尽力 而 
为 服务 模型 到 保证 每 个 流 能 获得 定量 QoS 的 模型 。 最 大 的 挑战 之 一 就 是 定义 一 种 服务 模 
型 ， 它 可 以 满足 许多 领域 的 应 用 需求 ， 甚 至 能 够 用 于 将 来 创建 的 应 用 。 
6. 1.2 分 类 方法 

资源 分 配 机 制 千差万别 ， 进 行 彻底 的 分 类 是 很 难 的 。 下 面 我 们 介绍 可 以 表示 资源 分 配 
机 制 特征 的 三 个 方面 ， 并 在 本 章 中 对 其 更 细微 的 差异 进行 讨论 。 

1， 以 路 由 器 为 中 心 和 以 主机 为 中 心 | 

资源 分 配 机 制 可 分 为 两 大 类 : 一 类 是 在 网 络 内 部 〈 即 在 路 由 器 或 交换 机 上 ) 解决 问 
题 ， 另 一 类 是 在 网 络 边缘 〈 即 在 主机 上 ， 或 许 是 在 传输 协议 内 ) 解决 问题 。 由 于 网 络 中 的 
路 由 器 和 网 络 边缘 上 的 主机 均 参 与 资源 分 配 ， 所 以 真正 的 问题 是 哪 一 个 承担 主要 责任 。 

在 以 路 由 器 为 中 心 的 设计 中 ， 由 每 台 路 由 器 决定 什么 时 候 转 发 分 组 ， 以 及 选择 丢弃 哪 
些 分 组 ， 同 时 通知 网 上 正在 产生 通信 和 量 的 主机 允许 它 发 送 的 分 组 数目 。 在 以 主机 为 中 心 的 
设计 中 ， 端 主机 观测 网 络 状态 (如 成 功 通过 网 络 的 分 组 数 )， 并 相应 调整 它们 的 行为 。 注 
意 这 两 类 设计 并 不 是 相互 排斥 的 。 例 如 ， 把 拥塞 管理 的 负担 主要 放 在 路 由 器 上 的 网 络 仍然 
希望 端 主机 能 支持 路 由 器 发 送 的 建议 报 文 ， 而 使 用 端 到 端 拥塞 控制 的 网 络 中 的 路 由 器 仍然 
用 某 种 策略 (不 论 多 么 简单 ) 决定 当 路 由 器 队列 发 生 溢出 时 要 丢弃 哪些 分 组 。 

2. 基于 预定 方式 和 基于 反馈 方式 

有 时 资源 分 配 机 制 也 根据 使 用 预定 (reservation) 还 是 反馈 (feedback) 进行 分 类 。 
在 基于 预定 的 系统 中 ， 一 些 实体 〈 如 端 主机 ) 为 流 的 分 配 向 网 络 申请 一 定 的 容量 。 然 后 每 
台 路 由 器 分 配 足 够 的 资源 〈 包 括 缓冲 区 及 链 路 带宽 的 百分比 ) 以 满足 这 一 请 求 。 如 果 某 些 








路 由 器 由 于 自身 资源 不 足 而 不 能 满足 该 请 求 ， 那 么 路 由 器 会 拒绝 这 个 预定 。 这 就 像 打 电话 
时 遇 到 忙 音 一 样 。 在 基于 反馈 的 系统 中 ， 端 主机 在 未 预定 任何 容量 的 情况 下 开始 发 送 数 
据 ， 然 后 根据 收 到 的 反馈 信息 调整 发 送 速率 。 反 馈 信息 可 以 是 显 式 的 (explicit) (RA 
拥塞 的 路 由 器 向 主机 发 送 “ 请 减 慢 速度 ”的 消息 ) RAW 〈implicit) 〈 即 端 主机 根据 外 
部 可 观察 到 的 网 络 行为 (如 分 组 丢失 ) 来 调整 发 送 速 率 ) 。 | 

注意 ， 基 于 预定 的 系统 总 是 意味 着 采用 以 路 由 器 为 中 心 的 资源 分 配 机 制 。 这 是 因为 每 
台 路 由 器 都 必须 负责 了 解 它 当前 的 可 用 容量 并 判断 能 否 接受 新 的 预定 ， 同 时 确信 每 台 主 机 
处 在 它 预 定 的 范围 内 。 如 果 主 机 发 送 数据 速率 超过 它 所 预定 的 容量 ， 那 么 当 路 由 器 发 生 拥 
塞 时 ， 该 主机 的 分 组 就 是 丢弃 的 候选 对 象 。 另 一 方面 ， 基 于 反馈 的 系统 意味 着 既 可 以 采用 
以 路 由 器 为 中 心 的 机 制 ， 也 可 以 采用 以 主机 为 中 心 的 机 制 。 通 常 ， 如 果 反 馈 是 显 式 的 ， 那 
入 至 少 在 某 种 程度 上 资源 分 配方 案 与 路 由 器 有 关 。 如 果 反 馈 是 隐 式 的 ， 则 几乎 所 有 负担 都 
落 在 端 主机 的 身上 ， 路 由 器 的 任务 只 是 在 发 生 拥塞 时 悄悄 把 分 组 丢掉 。 | 

预定 不 必 由 端 主机 发 出 ， 也 可 由 网 络 管理 员 给 流 或 聚集 流量 分 配 资源 ， 见 6.5.3 节 。 

3. 基于 窗口 方式 和 基于 速率 方式 | 

表示 资源 分 配 机 制 特征 的 第 三 种 方法 是 依据 基于 窗口 (window based) 还 是 基于 速率 
(rate based) 。 正 如 上 面 提 到 的 ， 这 只 是 多 个 领域 中 的 一 个 ， 甚 中 类 似 的 机 制 和 术语 还 用 
于 流量 控制 和 拥塞 控制 。 流 量 控制 和 资源 分 配 的 机 制 都 需要 一 种 表达 方式 以 向 发 送 方 传达 
人 允许 其 发 送 的 数据 量 。 传 达 这 一 信息 通常 用 两 种 方法 ， 窗口 (window) 和 速率 Crate), 
我 们 已 经 见 过 基于 窗口 的 传输 协议 ， 如 TCP， 其 中 接收 方向 发 送 方 通知 一 个 窗口 。 这 个 窗 
口 对 应 于 接收 方 的 缓冲 区 大 小 以 及 对 发 送 方 传输 数据 量 的 限制 ， 就 是 说 ， 它 支持 流量 控 
制 。 一 个 类 似 的 机 制 一 一 窗口 通知 一 一 可 以 用 于 在 网 络 内 预定 缓冲 区 空间 ( 即 它 支 持 资 源 
分 配 ) 。6. 3 节 描 述 的 TCP 拥塞 控制 机 制 是 基于 窗口 的 。 

也 可 以 用 速率 控制 发 送 方 的 行为 ， 也 就 是 接收 方 或 网 络 每 秒 能 接收 多 少 比特 。 基 于 速 
率 的 控制 机 制 对 以 某 平均 速率 产生 数据 和 需要 保证 最 小 吞 叶 量 的 多 媒体 应 用 程序 往往 是 有 
用 的 。 例如， 在 7. 2. 3 节 中 描述 的 该 类 视频 编 解码 器 以 1Mbps 的 平均 速率 和 2Mbps 的 峰 
值 速 率 产 生 视 频 。 在 本 章 后 面 我 们 会 看 到 ， 在 支持 不 同 服务 质量 的 基于 预定 的 系统 中 ， 流 
的 基于 速率 的 特性 是 一 个 合乎 逻辑 的 选择 :发送 方 对 每 秒 如 此 多 的 比特 数 做 出 预定 ， 同 时 
路 径 上 的 每 台 路 由 器 在 为 其 他 流 提供 空间 的 情况 下 ， 确 定 是 否 能 支持 这 一 速率 。 

4. 资源 分 配 分 类 小 结 

”如 上 所 述 ， 资 源 分 配 有 三 种 分 类 方法 ， 每 种 又 分 为 两 类 ， 共 有 八 种 不 同 的 策略 。 虽 然 
这 八 种 方法 都 是 可 能 实现 的 ， 但 我 们 指出 ， 实 际 上 有 两 种 策略 看 起 来 最 为 流行 ， 这 两 种 策 
略 与 网 络 的 基本 服务 模型 有 关 。 l 

一 方面 ， 尽 力 而 为 服务 模型 不 允许 用 户 预 定 网 络 容量 ， 因 此 它 通 常 意味 着 使 用 反馈 方 
式 。 这 就 意味 着 拥塞 控制 的 责任 大 部 分 落 在 端 主机 身上 ， 或 许 路 由 器 会 提供 某 些 辅助 。 在 
实践 中 ， 这 样 的 网 络 使 用 基于 窗口 的 信息 。 它 是 因特网 中 采用 的 一 般 策 略 ， 也 是 6. 3 节 和 
6.4 节 的 中 心 内 容 。 

另 一 方面 ， 基 于 服务 质量 的 服务 模型 可 能 包含 某 种 预定 形式 。 对 这 些 预定 的 支持 主要 
依赖 路 由 器 的 参与 ， 例 如 ， 将 分 组 放 和 不同 的 队列 依赖 于 它们 要 求 的 预定 资源 的 级 别 。 而 
且 ， 由 于 窗口 与 用 户 所 需 的 网 络 带宽 仅 是 间接 相关 ， 自 然 就 需要 按 速率 表示 预定 的 资源 。 
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我 们 将 在 6. 5 节 中 讨论 这 个 问题 。 
6.1.3 评价 标准 

最 后 我 们 讨论 如 何 判 断 一 种 资源 分 配 机 制 的 优 劣 。 回 忆 在 本 章 开头 的 问题 中 我 们 提出 
的 网 络 如 何 有 效 地 和 公平 地 分 配 资源 的 问题 。 也 就 是 说 ， 评 价 一 种 资源 分 配方 案 的 优 劣 至 
少 有 两 大 标准 。 下 面 我 们 依次 考虑 每 一 种 标准 ， 

1. 有 效 的 资源 分 配 

评价 网 络 资源 分 配方 案 的 有 效 性 通常 从 考虑 网 络 的 两 个 主要 度量 标准 开始 ， 即 吞吐 量 
和 延 运 。 显 然 ， 我 们 希望 和 和 尽 可 能 大 的 吞吐 量 和 尽 可 能 小 的 延迟 。 不 幸 的 是 ， 这 些 目 标 通 
前 相互 对 立 。 对 于 资源 分 配 算法 而 言 ， 增 加 吞吐 量 就 是 要 允许 尽 可 能 多 的 分 组 进入 网 络 ， 
使 所 有 链 路 的 利用 率 趋 近 1009 。 这 样 做 是 为 了 尽量 避免 链 路 空闲 的 可 能 ， 因 为 空闲 的 链 
路 会 降低 吞吐 量 。 这 种 策略 的 问题 在 于 ， 增 加 网 络 中 的 分 组 数 就 要 增加 每 台 路 由 器 队列 的 
长 度 ， 从 而 导致 分 组 在 网 络 中 的 延迟 加 大 。 

为 描述 这 种 关系 ， 一 些 网 络 设计 者 提出 使 用 吞吐 量 和 延迟 的 比值 作为 衡量 资源 分 配方 
和 案 有 效 性 的 度量 标准 。 这 个 比值 有 时 称 为 网 络 的 能 力 Cpower) © : 

Power= Throughput/Delay 

注意 ， 不 能 明显 看 出 能 力 是 判断 资源 分 配 有 效 性 的 恰当 标准 。 原 因 有 两 点 : 第 一 ， 能 
力 这 一 度量 标准 是 基于 M/M/1 排队 网 络 理论 的 ,9 这 一 理论 假设 有 无 限 个 队列 ; 而 实际 网 
络 的 缓冲 区 是 有 限 的 ， 有 时 不 得 不 丢弃 一 些 分 组 。 第 二 ， 能 力 这 一 度量 标准 的 定义 通常 与 单 
一 连接 〈 流 ) 有 关 ， 如 何 把 它 扩展 到 多 个 有 竞争 的 连接 还 不 清楚 。 尽 管 有 相当 严格 的 限制 ， 
但 是 到 目前 为 止 还 没有 其 他 的 度量 标准 被 广泛 接受 ， 因 此 现在 仍 在 使 用 能 力 这 一 度量 标准 。 

我 们 的 目标 是 使 这 个 比率 达到 最 大 ， 这 个 比率 是 关于 网 络 负载 的 函数 。 而 负载 是 由 资 
源 分 配 机 制 来 设置 的 。 图 6-3 给 出 了 上 典型 的 能 力 曲线 ， 理 想 情况 下 ， 资 源 分 配 机 制 可 以 使 
其 达到 曲线 的 最 高 点 。 如 果 在 最 高 点 的 左 侧 ， 表 明 这 一 机 制 过 于 保守 ;就 是 说 ， 它 允许 发 
送 的 分 组 太 少 ， 未 能 充分 利用 链 路 。 在 最 高 点 的 右 侧 表 明 这 一 机 制 允 许 进 入 网 络 中 的 分 组 
过 多 ， 以 致 由 排队 导致 的 延 退 的 增加 量 开 始 超出 吞吐 量 的 微小 增益 。 

有 趣 的 是 ， 能 力 曲 线 非 常 类 似 分 时 计算 机 系统 的 系 
统 否 吐 量 曲 线 。 系 统 吞 吐 量 随 进入 系统 的 作业 数 而 增加 ， 
当 在 系统 中 运行 的 作业 数 达 到 某 一 点 时 ， 系 统 性 能 开始 
PRE (系统 花 大 量 的 时 间 进 行内 存 页 面 交 换 )， 同 时 系统 
吞吐 量 也 开始 下 降 。 

在 本 章 后 几 节 中 可 以 看 到 ， 许 多 拥塞 控制 方案 只 能 |/ | NL 
很 粗略 地 控制 负载 。 也 就 是 说 ， 它 们 实在 不 可 能 实现 只 Aa 
把 “旋钮 ” 转 一 点 并 只 允许 少量 的 额外 分 组 进入 网 络 。 图 6-3 ”吞吐 量 与 延迟 的 比值 
因此 ， 网 络 设 计 者 需要 考虑 系统 在 高 负载 下 工作 时 将 会 和 负载 的 函数 关系 





行 吐 量 / 延 迟 





N 


日 ”确切 的 定义 是 Power 二 Throughput*/Delay， 其 中 0 过 a 二 1; a=1 时 能 力 取 极 大 值 ， 吞 吐 量 的 单位 是 每 秒 的 数 
据 单 元 〈 例 如 比特 ) ， 延 迟 的 单位 是 秒 。 

O ”因为 本 书 不 是 针对 排队 理论 的 ， 因 此 仅 给 出 了 M/M/1 排队 的 简要 描述 ，1 表示 有 一 台 服 务 器 ，M 表示 分 组 到 
达 和 服务 时 间 的 分 配 依据 “Markovian”， 即 指数 方式 。 - 
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出 现 的 情况 ， 即 图 6-3 所 示 曲 线 到 达 最 右 端的 情况 。 在 理想 的 情况 下 ， 我 们 希望 避免 由 于 
系统 来 回 摆动 而 使 系统 吞吐 量 趋 于 零 的 情况 。 用 网 络 术 语 来 说 ， 我 们 希望 有 一 个 稳定 的 
(stable) 系统 一 一 即使 在 网 络 负载 很 大 的 情况 下 ， 其 中 的 分 组 依然 可 以 在 网 络 中 继续 传 
送 。 如 果 机 制 是 不 稳定 的 ， 网 络 将 可 能 出 现 拥 塞 崩 溃 (congestion collapse) 。 

2. 公平 的 资源 分 配 

网 络 资源 的 有 效 利用 并 不 是 衡量 资源 分 配方 案 的 唯一 标准 ， 还 必须 考虑 公平 性 的 问 
题 。 但 是 当 试 图 定义 公平 资源 分 配 的 确切 组 成 时 ， 就 会 陷入 一 头 雾 水 。 例 如 ， 基 于 预定 的 
资源 分 配方 案 提 供 显 式 的 方法 来 产生 可 控制 的 不 公平 性 。 在 这 样 的 方案 中 ， 可 以 使 用 预定 
方式 让 一 个 视频 流 在 某 一 链 路 上 获得 1Mbps 的 吞吐 量 ， 而 同时 让 另 一 个 文件 传输 在 同一 
链 路 上 却 仅 获得 10kbps 的 吞吐 量 。 | 

相反 ， 如 果 没 有 显 式 的 信息 ， 当 多 个 流 共享 某 一 条 链 路 时 ， 和 希望 每 一 个 流 都 获得 相等 的 
带宽 份额 。 这 种 定义 假设 带宽 的 公平 (fair) 分 配 就 是 带宽 的 平均 (equal) 分 配 。 然 而 即使 
不 是 预定 方式 ， 平 等 分 配 也 不 等 同 于 公平 分 配 。 我 们 是 否 也 应 比较 流 的 路 径 长 度 ? 比 如， 如 
图 6-4 所 示 ，1 个 跳 数 为 4 的 流 和 3 个 跳 数 为 1 的 流 竞 争 时 ， 如 何 体现 公平 ? 














图 6-4 1 个 跳 数 为 4 的 流 和 3 个 跳 数 为 1 的 流 的 竞争 


假设 公平 就 意味 着 平等 ， 而 且 所 有 路 径 有 相同 的 长 度 ， 网 络 研究 员 Raj Jain 提出 了 一 
种 评价 拥塞 控制 机 制 公平 性 的 度量 标准 ， 他 的 公平 指数 定义 如 下 。 给 定 一 个 流 吞 吐 量 的 集 
A (x1 9 X29 °°? 9 Aa) (使 用 统一 的 单位 ， 加 b/s) 9 下 列 函 数 定 义 这 些 流 的 公平 性 指数 : 

. : ， 
(Se) 
n> Va 
3 i=1 
公平 性 指数 总 是 产生 0~1 之 间 的 一 个 数 ，1 表示 最 公平 。 为 了 更 直观 地 了 解 这 一 度量 标 
准 ， 考 虑 n 个 流 都 获得 每 秒 1 个 单位 数据 吞吐 量 的 情况 。 它 的 公平 性 指数 为 
ne . 
nxn 
现在 假设 有 一 个 流 获得 了 1 十 A 的 吞吐 量 ， 则 公平 性 指数 为 
ET = n? + 2nA+ A 
n(n 一 1 十 (1 十 人)?) n? + 2n 人 十 nA? 
注意 ， 分 母 比分 子 大 (2 一 1)Az 。 因 此 不 论 这 个 流 的 吞吐 量 比 其 他 流 的 吞吐 量 大 还 是 小 
( 正 的 或 负 的 A) ， 公 平 性 指数 都 降 到 1 以 下 了 。 另 一 种 简单 的 情况 是 考虑 7 个 流 中 只 有 
个 流 有 相等 的 吞吐 量 ， 而 其 余 "一 & 个 流 的 吞吐 量 为 0， 那么 公平 性 指数 降 为 k/n. 


6.2 排队 规则 ” 
无 论 资源 分 配 机 制 的 其 余部 分 是 简单 还 是 复杂 ， 每 台 路 由 器 都 必须 应 用 某 种 排队 规则 来 





Fa 922 9° Xn) = 














日 ”参见 “实验 十 一 ”。 
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决定 如 何 缓存 等 待 发 送 的 分 组 。 可 以 把 排队 算法 想象 为 分 配 带宽 〈 哪 些 分 组 被 传送 ) 和 分 配 
缓冲 区 (哪些 分 组 被 丢弃 )。 它 通过 确定 分 组 等 待 传输 的 时 间 直 接 影响 分 组 的 延迟 。 本 节 介 
绍 两 种 常用 的 排队 算法 一 一 FIFO (先进 先 出 ) 和 FQ (公平 排队 》 法 ， 以 及 几 个 变种 算法 ， 


6.2.1 FIFO 


FIFO (先进 先 出 ) 排 队 也 称 为 先 来 先 服 务 (FCFS) 排队 ， 它 的 思想 很 简单 ， 先 到 达 
路 由 器 的 分 组 先 被 发 送 。 图 6-54 所 示 为 一 Gali, Sasi 

ME AECL” Hh FIFO 队列 ， 最 多 可 容纳 8 pa om 

个 分 组 。 假 设 每 台 路 由 器 中 缓 串 区 的 空间 
是 有 限 的 ， 当 有 分 组 到 达 而 队列 缓冲 区 ) 
已 满 时 ， 路 由 器 将 委 弃 这 个 分 组 ， 如 图 6- 
5b 所 示 。 这 种 做 法 不 会 考虑 这 个 分 组 属于 
嘟 个 流 ， 也 不 考虑 它 有 多 重要 。 由 于 到 达 








室 闲 缓冲 区 ”排队 的 分 组 
FIFO 队 尾 的 分 组 被 丢弃， 所 以 有 时 也 称 为 a) FIFO 队 列 


队 尾 丢弃 (tail drop). 要 传输 的 


一 个 分 组 
注意 ， 队 尾 丢弃 与 FIFO 是 两 个 不 同 AEM ee as 


的 概念 。FIFO 是 调度 规则 (scheduling 
discipline) ， 它 决定 分 组 传送 的 顺序 。 队 尾 
丢弃 是 丢弃 策略 (drop policy), GRE 
个 分 组 被 丢弃 。 因 为 FIFO 和 队 尾 丢弃 分 
别 是 最 简单 的 调度 规则 和 丢弃 策略 ， 因 此 
有 时 它们 被 看 成 一 种 组 合 排队 实现 。 不 幸 图 6-5 
的 是 ， 这 一 组 合 常常 被 简单 地 称 作 FIFO 排队 (FIFO queuing)， 实 际 上 应 更 确切 地 称 之 
为 带 队 尾 委 弃 的 FIFO (FIFO with tail drop) 。6.4 节 提供 了 其 他 丢弃 策略 的 一 个 例子 ， 它 
采用 比 “是 否 有 空 缓冲 区 ?” 更 复杂 的 算法 决定 何 时 丢弃 分 组 。 这 种 丢弃 策略 可 以 与 FIFO 
或 更 复杂 的 调度 规则 一 起 使 用 。 

tt FEES FIFO 作为 所 有 排队 算法 中 最 简单 的 算法 ， 在 本 书写 作 时 是 因特网 路 由 
器 中 使 用 最 广泛 的 算法 。 这 种 简单 的 排队 方法 将 拥塞 控制 和 资源 分 配 的 所 有 责任 推 到 网 络 
的 边缘 。 这 样 ， 就 假设 目前 因特网 中 流行 的 拥塞 控制 方式 不 能 从 路 由 妖 获 得 任何 帮助 ; 
TCP 负责 检测 和 处 理 拥 塞 。 我 们 将 在 6. 3 市 中 看 到 它 是 如 何 运 作 的 。 

基本 FIFO 排队 的 一 个 简单 变种 是 优先 排队 。 它 的 思想 是 给 每 个 分 组 一 个 优先 级 标 
志 ， 这 个 标志 可 以 被 传送 到 如 6.5. 3 节 描 述 的 IP 首部 中 。 路 由 器 然后 采用 多 个 FIFO 队 
列 ， 每 个 队列 对 应 一 个 优先 级 。 路 由 器 总 是 先 发 送 完 非 空 的 最 高 优先 级 队列 中 的 分 组 ， 然 
后 再 移 到 下 一 个 优先 级 队列 。 在 每 个 优先 级 队列 中 ， 分 组 都 采用 FIFO 方式 管理 。 这 种 方 
式 与 尽力 而 为 传送 模型 有 一 点 不 同 ， 但 它 还 没有 优化 到 对 任意 特定 的 优先 级 提供 保证 。 它 
仅 允 许 高 优先 级 的 分 组 播 在 队列 的 前 面 。 | rs 

OR, EIERE AY AE BEER BA AT eC TA BA RIR”. thee, R 
要 在 高 优先 级 队列 中 有 一 个 高 优先 级 分 组 要 发 送 ， 那 么 低 优 先 级 队列 就 不 能 获得 服务 。 要 
想 让 它 成 为 可 行 的 ， 必 须 对 插入 高 优先 级 队列 中 的 高 优先 级 通信 量 进 行 严格 的 限制 。 显 
然 ， 我 们 不 能 允许 用 户 不 受 限 制 地 将 其 分 组 设置 为 高 优先 级 ， 必 须 防止 他 们 一 起 这 样 做 ， 





EF | 
b) FIFO 队 列 中 的 队 尾 丢弃 


或 者 提供 某 种 方式 将 一 些 用 户 的 要 求 “驳回 ”。 显 然 ， 我们 可 以 用 经 济 手段 来 实现 : 传送 
分 组 的 优先 级 越 高 ， 网 络 费 用 就 越 高 。 但 是 在 像 因特网 这 样 分 散 化 的 环境 中 ， 实 现 这 样 的 
方案 还 有 很 多 问题 。 

在 因特网 中 ， 使 用 优先 级 排队 的 一 种 情况 是 为 了 保护 那些 最 重要 的 分 组 一 一 通常 指 在 
网 络 拓扑 结构 改变 后 为 保证 路 由 表 的 稳定 性 所 必需 的 路 由 更 新 分 组 。 对 于 这 样 的 分 组 ， 津 
常 有 一 个 特殊 队列 ， 它 可 以 由 P 首部 中 的 差分 服务 代码 点 (Differentiated Services Code 
Point，DSCP)〉 以 前 的 TOS 字段 标识 。 事实 上 ， 这 是 6. 5. 3 节 中 讲述 的 “区 分 服务 ”思想 
的 一 个 简单 例子 。 


6.2.2 公平 排队 

FIFO 排队 的 一 个 主要 问题 是 不 能 区 分 不 同 的 通信 源 ， 按 前 几 节 中 的 说 法 ， 就 是 它 不 
能 按 分 组 所 属 的 流 分 离 它 们 。 这 个 问题 有 两 个 不 同 的 层面 。 一 个 层面 是 不 能 确定 任何 一 个 
完全 在 源 上 实现 的 拥塞 控制 算法 都 能 在 路 由 器 几乎 不 提供 帮助 的 情况 下 控制 拥塞 。 我 们 暂 
时 停止 对 这 一 点 的 判断 ， 留 到 下 一 节 讨 论 TCP 拥塞 控制 时 再 讨论 。 另 一 个 层面 ， 因 为 整 
个 拥塞 控制 机 制 在 源 上 实现 ， 而 且 FIFO 排队 不 提供 监视 这 些 源 是 否 遵循 这 一 机 制 的 手 
段 ， 因 此 一 些 恶意 操作 的 源 ( 流 ) 就 可 能 占用 网 络 任意 多 的 容量 。 我 们 再 来 考虑 因特网 ， 
某 个 给 定 的 应 用 程序 完全 可 以 不 用 TCP， 从 而 就 能 绕 过 端 到 端 拥塞 控制 机 制 。( 像 当今 因 
特 网 电话 这 样 的 应 用 程序 就 是 这 人 么 做 的 .) 这 样 的 应 用 程序 能 够 以 其 分 组 无 限制 地 充斥 路 
由 器 ， 从 而 使 其 他 应 用 程序 的 分 组 被 丢弃 。 | 

公平 排队 (FQ) 是 为 解决 这 一 问题 而 提出 的 算法 。 其 py TT FaN 





peda dd 


思想 是 为 路 由 器 当前 处 理 的 每 个 流 维护 一 个 独立 的 队列 . 路 一 / \ 
由 器 以 轮转 方式 为 这 些 队列 服务 ， 如 图 6-6 所 示 。 当 某 个 流 IT | 

发 送 分 组 过 快 时 ， 它 的 队列 被 填 满 。 当 队列 达到 某 一 长 度 一 | 
时 ， 属 于 这 个 流 队列 的 多 余 分 组 就 被 丢弃 。 用 这 种 方式 ,一 Sy | i 
个 源 就 不 能 以 牺牲 其 他 流 为 代价 任意 增加 它 占用 的 网 络 能 力 一 一 \ 
TERR, FQ BEAD R Eh ai Ft SOK AS Te A eR) TN 一 一 一 = 

以 任何 方式 限制 给 定 源 传送 分 组 的 速率 。 换 言 之 ，FQ 依然 图 6-6 一 合 路 由 器 上 
与 端 到 端 拥塞 控制 协同 使 用 。 它 简单 地 隔离 各 通信 以 使 恶意 a ee 


的 通信 源 不 会 影响 那些 忠实 执行 端 到 端 算法 的 源 。 对 于 在 良好 拥塞 控制 算法 管理 下 的 流 的 
集合 ，FQ 也 对 它们 施加 公平 性 。 | 

尽管 基本 概念 很 简单 ， 但 你 仍 需 了 解 相 当 多 的 细节 。 问 题 的 复杂 性 主要 在 于 路 由 器 处 
理 的 分 组 长 度 不 一 定 相 同 。 要 真正 以 公平 的 方式 分 配 输 出 链 路 的 带宽 ， 就 有 必要 考虑 分 组 
的 长 度 。 例 如 ， 路 由 器 正在 管理 两 个 流 ， 一 个 流 有 1 000 字 节 的 分 组 ， 另 一 个 流 有 500 F 
节 的 分 组 〈 或 许 由 于 来 自 这 人 台 路 由 器 上 游 的 分 段 ) ， 那 么 对 每 个 流 队 列 的 分 组 进行 的 轮转 
服务 将 把 链 路 带宽 的 2/3 分 给 第 一 个 流 ， 而 分 给 第 二 个 流 的 仅 是 链 路 带宽 的 1/3。 

我 们 真正 想 实 现 的 是 按 位 轮转 ， 也 就 是 路 由 器 从 流 1 传送 1 位 ， 再 从 流 2 传送 1 位 ， 
以 此 类 推 。 显 然 ， 从 不 同 的 分 组 中 按 位 交叉 传送 是 不 可 行 的 。 因 此 FQ 机 制 采 用 如 下 方法 
来 模拟 这 一 行为 ， 先 判断 对 于 按 位 轮转 方式 发 送 的 分 组 何 时 传送 完毕 ， 然 后 根据 完成 时 间 
对 要 传送 的 分 组 进行 排序 。 | m 


HELE aG RD He 263 


为 了 理解 近似 按 位 轮转 的 算法 ， 考 虑 单个 流 的 行为 并 设想 一 个 时 钟 ， 每 当 所 有 活动 流 
都 传送 1 位 时 ， 时 钟 滴答 1 次 。( 流 是 活动 的 是 指 它 有 数据 在 队列 中 。.) 对 于 这 个 流 ， 用 P; 
表示 分 组 i 的 长 度 ， 用 S; 表示 路 由 器 发 送 分 组 ; 的 起 始 时 间 ， 用 F; 表示 路 由 器 发 送 分 组 ; 
的 结束 时 间 。 如 果 用 Pi 表示 发 送 分 组 i 所 用 的 时 钟 滴答 数 〈 记 住 流 每 传 1 位 ， 时 钟 滴答 
数 加 1) ， 那 么 容易 看 出 F:=S;+P;. 

何 时 开始 传送 分 组 i 呢 ? 这 取决 于 分 组 i 是 在 路 由 器 传 完 这 个 流 的 第 i 一 1 个 分 组 之 前 
到 达 还 是 之 后 到 达 。 如 果 是 之 前 到 达 ， 那 么 逻辑 上 分 组 i 的 第 1 位 将 在 分 组 i 一 1 的 最 后 1 
位 发 完 后 立即 发 送 。 另 一 种 情况 ， 可 能 当 路 由 器 发 完 第 i 一 1 个 分 组 很 久之 后 第 i 个 分 组 才 
到 达 ， 也 就 是 说 在 一 段 时 间 里 这 个 流 的 队列 是 空 的 ， 这 时 轮转 技术 将 不 从 这 个 流传 送 任何 
TA. AMH Ai 表示 分 组 i 到 达 路 由 器 的 时 间 ， 那 么 S; 二 max(Fi_1,Ai;)， 于 是 我 们 可 以 
计算 





l 上 

现在 来 讨论 多 个 流 的 情况 ， 同 时 我 们 发 现 确定 A 的 一 个 要 领 。 在 分 组 到 达 时 ， 我 们 不 可 
能 正好 读 出 墙 上 的 时 钟 。 正 如 上 面 提 到 的 ， 我 们 希望 按 位 轮转 时 ， 每 当 所 有 活动 流 都 传送 
1 位 时 ， 时 钟 加 工 个 滴答 ， 因 此 需要 时 钟 在 流 越 多 时 增加 的 速度 越 慢 。 尤 其 是 ， 如 果 有 n 
个 活动 流 ， 那 么 每 当 传 送 n 个 比特 时 ， 时 钟 就 必须 加 1 个 滴答 。 这 样 的 时 钟 将 用 于 计 
算 Aie 

现在 ， 用 上 面 的 公式 来 计算 每 个 流 中 到 达 的 每 个 分 组 的 F;。 然 后 把 所 有 Fi 当 作 时 间 
戳 ， 而 下 一 个 被 传送 的 分 组 总 是 时 间 戳 值 最 小 的 那个 分 组 一 一 基于 上 述 原 因 ， 该 分 组 应 最 
先 被 传送 完 。 

注意 这 表明 一 个 流 可 能 有 一 个 分 组 到 达 ， 同 时 因为 它 比 一 个 已 经 在 队列 中 等 待 发 送 的 
其 他 流 的 分 组 更 短 ， 所 以 它 可 能 被 插 在 队列 中 比 它 长 的 分 组 前 面 。 然 而 并 不 意味 着 新 到 的 
分 组 能 抢先 当前 正在 传送 的 分 组 。 由 于 没有 这 种 抢先 机 制 ， 如 上 所 述 的 FQ 的 实现 方法 不 
能 精确 地 模拟 试图 达到 的 近似 按 位 轮转 技术 。 

为 了 更 好 地 理解 公平 排队 的 实现 是 如 何 工作 的 ， 我 们 来 看 图 6-7 给 出 的 例子 。 在 
图 6-7a 中 显示 了 两 个 流 的 队列 ， 算 法 在 流 2 队列 之 前 从 流 1 中 选择 两 个 被 传送 的 分 组 。 
在 图 6-7b 中 ， 当 流 1 的 分 组 到 达 时 ， 路 由 器 已 经 开始 发 送 流 2 的 分 组 。 如果 采 用 完全 的 
按 位 发 送 公 平 排队 ， 虽 然 流 1 的 分 组 在 流 2 发 完 之 前 到 达 ， 但 在 实现 时 流 1 的 分 组 不 能 抢 
先 于 流 2 的 分 组 发 送 。 

| 流 1 流 2 

输出 (到 达 中 ) 人 输出 
| | 


| | F=10 & 






a) 具有 较 早 完成 时 间 的 分 组 首先 被 发 送 b) 发 送 中 的 分 组 发 送 完成 
图 6-7 实现 公平 排队 的 例子 





在 公平 排队 中 有 两 个 问题 需 注 意 。 第 一 ， 只 要 队列 中 至 少 有 一 个 分 组 ， 链 路 就 绝 不 空 
闲 。 任 何 具 有 这 一 特点 的 排队 方案 称 作 工作 保持 (work-conserving) 方案 。 工 作 保 持 产 生 
的 效果 之 一 就 是 : 如 果 我 的 流 与 其 他 流 共享 一 条 链 路 ， 而 其 他 流 此 时 不 发 送 任 何 数 据 ， 那 
么 我 的 流 就 可 以 使 用 全 部 链 路 能 力 。 然 而 ， 一旦 其 他 的 流 开始 发 送 数 据 ， 它 们 将 会 使 用 自 


己 的 那 一 份 链 路 能 力 ， 而 我 的 流 可 获得 的 能 力 将 下 降 。 

第 二 ， 当 链 路 满 负荷 且 有 7 个 流 在 发 送 数 据 时 ， 我 所 使 用 的 能 力 不 能 超过 链 路 带宽 的 
1/n。 如 果 我 试图 超越 这 一 界限 ， 那 么 我 的 分 组 将 会 被 赋予 更 大 的 时 间 惟 值 ， 使 它们 为 了 
等 待 传送 而 在 队列 里 等 更 长 的 时 间 。 最 终 队 列 会 溢出 ， 但 究竟 是 我 的 分 组 还 是 别人 的 分 组 
被 丢弃 不 是 由 我 们 正在 使 用 的 公平 排队 决定 的 。 这 是 由 丢弃 策略 决定 的 ，FQ 是 一 个 调度 
算法 ， 和 FIFO 一 样 ， 它 可 以 和 任何 丢弃 策略 结合 。 

因为 FQ 是 工作 保持 的 ， 所 以 一 个 流 不 用 的 带宽 可 自动 地 被 其 他 任何 流 使 用 。 例 如 ， 
如 果 有 4 个 流 正在 通过 路 由 器 ， 并 且 都 是 发 送 分 组 ， 那 么 每 个 流 能 获得 带宽 的 1/4。 但 是 
如 果 它 们 中 有 1 个 流 已 空 闪 了 足够 的 时 间 ， 它 的 所 有 分 组 都 被 送出 路 由 器 的 队列 ， 那 么 可 
用 带宽 将 被 其 余 的 3 个 流 共享 ， 于 是 每 个 流 都 会 获得 带宽 的 1/3。 这 样 就 可 以 认为 FQ 给 
每 个 流 提供 的 是 有 保证 的 最 小 份额 ， 如 果 有 的 流 不 用 它们 的 份额 ， 别 的 流 就 可 获得 比 它 的 
保证 多 的 带宽 。 

可 以 实现 FQ 的 一 个 变种 称 为 加 权 公 平 排队 (weighted fair queuing，WFQ)， 它 允许 
ATH CBR) 指定 一 个 权 值 。 这 个 权 值 逻辑 上 用 来 描述 路 由 需 为 该 队列 服务 1 次 所 传 
送 的 比特 数 ， 它 可 以 有 效 地 控制 流 可 获得 的 链 路 带宽 的 百分比 。 简 单 的 FQ 给 每 个 队列 赋 
权 值 1， 这 意味 着 逻辑 上 每 轮转 1 次 为 每 个 队列 发 送 1 位。 当 有 个 流 时 ， 这 导致 每 个 流 
获得 带宽 的 1/2。 但 是 在 WEFQ 中 ， 第 一 个 队列 的 权 值 可 以 是 2， 第 二 个 队列 的 权 值 可 以 是 
1， 而 第 三 个 队列 的 权 值 可 以 是 3。 假设 每 个 队列 总 是 有 分 组 等 待 发送， 那么 第 一 个 流 获得 
可 用 带宽 的 1/3， 第 二 个 流 获 得 可 用 带宽 的 1/6， 而 第 三 个 流 获得 可 用 带宽 的 1/2. 

虽然 我 们 已 经 用 流 描述 了 WFQ， 但 要 注意 它 可 以 按 通 信和 量 的 类 别 (class) 实现 ， 其 
中 类 别 用 其 他 方法 定义 ,不同 于 在 本 章 开 始 介 绍 的 简单 的 流 。 例 如 ， 可 以 使 用 IP 首部 中 
的 某 些 字段 标识 类 别 ， 并 给 每 一 类 分 配 一 个 队列 和 权 值 。 这 正 是 6. 5. 3 节 中 描述 的 区 分 服 
务 体系 结构 的 一 部 分 。 

TER, BUT WFQ 的 路 由 器 必须 从 某 处 获得 每 个 队列 指定 的 权 值 ， 或 者 通过 手工 配 
置 ， 或 者 通过 这 些 源 的 某 种 信 令 来 获得 。 在 后 一 种 情况 下 ， 我 们 转向 于 基于 预定 的 模型 。 
仅 给 队列 指定 一 个 权 值 的 方式 提供 一 种 弱 的 预定 形式 ， 因 为 这 些 权 值 只 和 流 获 得 的 带宽 间 
接 相 关 。( 例 如 ， 流 可 获得 的 带宽 还 依赖 于 有 多 少 流 和 它 共享 链 路 )。 我 们 将 在 6. 5. 2 节 中 
看 到 如 何 使 用 WFQ 作为 基于 预定 的 资源 分 配 机 制 的 组 成 部 分 。 

结论 ”最 后 我 们 可 以 看 到 ， 整 个 队列 管理 的 讨论 说 明了 一 个 称 为 策略 和 机 制 分 离 

(separating policy and mechanism) 的 重要 系统 设计 原则 。 其 思想 是 把 每 一 种 机 

制 看 作 一 个 黑箱 ， 它 提供 可 由 一 组 旋钮 控制 的 多 层面 服务 。 策 略 规 定 这 些 旋 钮 的 

一 组 特定 设置 ， 但 它 并 不 知道 (或 不 关心 ) 黑箱 如 何 实现 。 这 种 情况 下 讨论 的 机 

制 是 排队 规则 ,而 策略 是 哪个 流 获得 何 种 级 别 服务 的 特殊 设置 (如 优先 级 或 权 

值 )。 我 们 将 在 6.5 节 讨 论 WFQ 机 制 可 能 使 用 的 一 些 策 略 。 


6.3 TOP 拥塞 控制 ， 

本 节 讲 述 当 今 用 于 端 到 端 拥 塞 控制 的 主要 实例 ， 它 是 通过 TCP 实现 的 。TCP 的 基本 
策略 是 把 分 组 发 送 到 没有 预定 的 网 络 上 ， 然 后 对 出 现 的 可 观察 事件 做 出 反应 。TCP 假设 
网 络 路 由 器 只 支持 FIFO 排队 ， 但 用 公平 排队 也 能 工作 。 

TCP 拥塞 控制 是 在 20 世纪 80 年 代 后 期 由 Van Jacobson 引入 因特网 的 ， 大 约 是 在 
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弃 )， 同 时 主机 会 因 超 时 而 重 传 分 组 ， 引 起 更 严重 的 拥塞 。 

一 般 而 言 ，TCP 拥塞 控制 的 概念 是 为 每 个 源 确定 网 络 中 有 多 少 可 用 能 力 ， 从 而 知道 
它 可 以 安全 完成 传送 的 分 组 数 。 一 旦 某 个 源 有 这 么 多 分 组 在 传送 ， 它 用 确认 (ACK) 信号 
的 到 达 表 明 它 的 一 个 分 组 已 经 离开 网 络 ， 因 而 它 不 用 增加 拥塞 级 别 就 可 以 安全 地 向 网 络 插 
入 一 个 新 的 分 组 。 通 过 使 用 确认 信息 测定 分 组 的 传送 ， 人们 称 TCP 是 自 同步 (self-clock- 
ing) 的 。 当 然 ， 在 一 开始 就 确定 可 获得 的 能 力 并 非 易 事 。 因 为 其 他 连接 时 连 时 断 ， 可 获 
得 的 市 宽 不 断 随时 间 变 化 ， 这 意味 着 任何 指定 的 源 必须 能 调整 传送 分 组 的 数目 ， 这 使 问题 
FEIN AR © ANT HAE TCP 解决 这 些 问题 以 及 其 他 问题 所 使 用 的 算法 。 

注意 ， 虽 然 我 们 一 次 描述 TCP 拥塞 控制 的 一 种 机 制 ， 从 而 给 人 一 种 印象 ， 好 像 我 们 
在 谈论 三 个 独立 的 机 制 ， 但 只 有 将 它们 作为 一 个 整体 考虑 时 才 有 TCP 拥塞 控制 。 此 外 ， 
虽然 我 们 要 从 称 为 标准 TCP (standard TCP) 拥塞 控制 的 变种 说 起 ， 但 我 们 将 看 到 相当 多 
的 变种 都 在 使 用 当中 ， 研 究 人 员 不 断 探索 新 的 方法 来 解决 这 一 问题 。 稍 后 讨论 其 中 一 些 新 
的 方法 。 | 





TCP 为 每 个 连接 维护 一 个 新 的 状态 变量 ， 称 为 CongestionWindow GAZEBO). IRA 
它 来 限制 给 定时 间 内 人 允许 传送 的 数据 量 。 拥 赛 控制 窗口 与 流量 控制 的 通知 窗口 相对 应 。 
TCP 做 如 下 修改 ， 允许 未 确认 数据 的 最 大 字 市 数 为 当前 拥塞 窗口 和 通知 窗口 的 最 小 值 。 
这 样 ， 用 5. 2.4 节 中 定义 的 变量 ， 对 TCP 的 有 效 窗口 修订 如 下 : 

MaxWindow= MIN(CongestionWindow, AdvertisedWindow) 
EffectiveWindow 王 MaxWindow 一 (LastByteSent 一 LastByteAcked) 

也 就 是 说 ， 在 EffectiveWindow 的 计算 中 用 MaxWindow 代 蔡 AdvertisedWindow。 这 样 ， 
允许 TCP 源 发 送 分 组 的 速率 不 超过 网 络 或 目标 主机 可 接受 的 速率 中 的 最 小 值 。 

当然 ， 问 题 是 TCP 如 何 得 到 一 个 合适 的 CongestionWindow 的 值 。 与 AdvertisedWin- 
dow Ale], AdvertisedWindow 的 值 是 由 连接 的 接收 方 送出 的 ， 没有 任何 一 个 源 向 TCP 的 
发 送 方 发 送 一 个 合适 的 CongestionWindow fi. £24 TCP 源 根据 它 所 获得 的 网 络 中 存在 
的 拥塞 级 别 来 设 定 CongestionWindow。 当 拥塞 级 别 上 升 时 减 小 拥塞 窗口 ， 而 当 拥 塞 级 别 
-下降 时 加 大 拥塞 窗口 。 这 种 把 两 者 合 在 一 起 的 机 制 通常 称 为 如 性 增 / 冬 性 减 Cadditive in- 
crease/multiplicative decrease，AIMD) ， 在 下 面 的 讨论 中 ， 会 明白 用 这 样 一 个 羌 口 的 名 字 
的 原因 。 

那么 ， 关 键 问题 是 源 如 何 确定 网 络 拥塞 并 且 如 何 减 小 拥塞 窗口 ? 答案 是 基于 这 样 的 观 
察 ， 分 组 不 能 被 传送 和 导致 超时 的 主要 原因 在 于 拥塞 造成 分 组 锌 丢 和 痉 。 因 为 传输 错误 而 造 
成 丢弃 分 组 的 情况 是 很 少 的 。 因 此 ，TCP 认为 超时 是 发 生 拥 塞 的 标志 ， 并 据 此 降低 正在 
传输 的 速率 。 需 要 说 明 的 是 ， 每 发 生 一 次 超时 ， 源 就 将 CongestionWindow 设 为 当前 值 的 
一 半 ， 这 种 对 于 每 次 超时 将 CongestionWindow 值 减 半 的 做 法 正 是 对 应 于 该 AIMD 机 制 中 
MIR RER? | 

尽管 CongestionWindow 是 按 字 节 定 义 的 ， 但 如 果 按 整个 分 组 来 考虑 成 倍 减少 是 





最 容 
易 理 解 的 。 例 如 ,假设 当前 CongestionWindow 被 设 为 16 个 分 组 。 若 检测 到 一 个 分 组 丢 
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4, CongestionWindow 就 被 设置 为 8。( 通 常 ， 发 生 超时 就 是 检测 到 分 组 丢失 ， 但 在 下 面 
将 会 看 到 ，TCP 还 有 检测 丢弃 分 组 的 其 他 机 制 . 如 果 检 测 到 另外 的 分 组 丢失 ，Conges- 
tionWindow 的 值 将 减 到 4， 然 后 就 减少 到 2， 直 到 减 至 一 个 分 组 的 长 度 。 不 允许 Conges- 
tionWindow 低 于 一 个 分 组 的 长 度 ， 在 TCP 术语 中 ， 一 个 分 组 的 长 度 称 为 最 大 报 文 段 长 度 
(Maximum Segment Size, MSS), | J 目的 地 
只 减 小 窗口 大 小 的 拥塞 控制 策略 显然 过 于 保守 ， 同 时 也 需 | | 
要 能 增 大 Congestion Window 以 充分 利用 网 络 新 增 的 能 力 。 这 
就 是 机 制 中 谈 到 的 “加 性 增 ” 部 分 ， 它 的 工作 原理 如 下 每 当 
源 成 功 地 发 送 CongestionWindow 设 定 的 分 组 数 一 一 也 就 是 说 ， 
每 个 发 出 的 分 组 都 在 最 近 的 往返 时 间 (RTT) 时 间 内 获得 确 
认 ， 源 就 将 等 于 一 个 分 组 长 度 的 值 加 到 CongestionWindow E, | 
这 种 线性 增加 的 过 程 如 图 6-8 所 示 。 注 意 ， 在 实际 应 用 中 TCP 一 一 一 一 
不 会 等 待 整个 窗口 的 确认 值 收 到 之 后 才 给 拥塞 窗口 增加 一 个 分 “< | 
组 的 值 ， 而 是 随 着 到 达 的 每 一 个 确认 增加 一 个 小 的 值 。 具 体 地 a 
讲 ， 每 次 收 到 一 个 确认 后 ， 拥 塞 窗口 按 如 下 公式 增加 ， 
Increment= MSS X (MSS/Congestion Window) 
CongestionWindow+ = Increment 
也 就 是 说 ， 不 是 在 每 个 RTT 内 将 Congestion Window 增加 整个 
MSS 值 ， 而 是 每 收 到 一 个 ACK, CongestionWindow 就 增加 
MSS 值 的 一 部 分 。 假 设 每 个 ACK 确认 收 到 MSS 45, KA 
MSS 值 的 这 一 部 分 等 于 MSS/CongestionWindow, l i 
连续 增加 或 减少 拥塞 窗口 的 模式 将 贯穿 连接 的 生命 期 。 事 ”图 68 EmA 
实 上 ， 如 果 用 CongestionWindow 作为 时 间 的 函数 画 出 当前 的 ee a T 
值 ， 将 得 到 如 图 6-9 所 示 的 锯 肯 型 图 案 。 理 解 有 关 加 性 增 / 乘 pea 
性 减 的 重要 概念 是 ， 源 减 小 它 的 拥塞 窗口 的 速度 比 加 大 这 个 窗口 要 快 得 多 。 这 与 加 性 增 / 
加 性 减 策略 形成 鲜明 对 比 ， 后 一 种 策略 是 指 每 收 到 一 个 ACK， 窗 口 值 增加 1 个 分 组 ， 同 
时 每 发 生 一 次 超时 ， 窗 口 值 减少 1 个 分 组 。 事 实证 明 加 性 增 / 乘 性 减 是 拥塞 控制 机 制 达 到 
稳定 的 一 个 必要 条 件 (参考 “扩展 阅读 ”) 。 大 幅度 减少 窗口 与 谨慎 增加 窗口 的 一 个 直观 原 
因 是 ， 窗 口 过 大 的 后 果 要 比 窗口 过 小 严重 得 多 。 例 如 ， 当 窗口 过 大 时 ， 被 丢弃 的 分 组 要 被 
重 传 ， 导 致 拥塞 更 加 严重 ， 因 而 迅速 从 这 种 状态 中 摆脱 出 来 非常 重要 。 
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图 6-9 上 典型 的 TCP 锯齿 图 案 


最 后 ， 由 于 超时 是 拥塞 发 生 的 标志 ， 并 触发 窗口 大 小 的 成 倍 减少 ， 所 以 TCP 需要 提 
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供 最 精确 的 超时 机 制 。TCP 的 超时 机 制 在 5. 2. 6 节 中 已 谈 到 ， 在 此 不 再 重复 。 但 要 记 住 该 
机 制 的 两 个 要 点 : 超时 值 被 设置 为 平均 RTT 和 该 平均 值 的 标准 偏差 值 的 一 个 函数 ， 
所 由 于 用 精确 时 钟 测量 每 次 传输 的 开销 太 大 ， 因 此 TCP 只 用 粗 粒 度 (500 ms) 时 钟 在 每 
个 RTT (而 不 是 每 发 一 个 分 组 对 往返 时 间 进行 一 次 采样 。 





委 包 不 等 于 拥塞 : 无 线 网 络 中 的 TCP 

TCP 拥塞 控制 有 一 种 严重 的 失败 倾向 。 当 链 路 因 位 错误 产生 高 频率 的 丢 包 时 ，TCP 
误 认 为 这 是 拥塞 的 信号 ， 这 种 现象 在 无 线 链 路 上 非常 常见 。 结 果 是 TCP 发 送 端 降低 其 发 
送 速 率 ， 但 对 位 错误 率 没有 影响 ， 所 以 这 种 丢 包 情况 会 延续 到 发 送 端 窗口 只 剩 一 个 分 组 为 
止 。 这 时 ，TCP 的 吞吐 量 会 降低 到 每 个 往返 时 间 一 个 分 组 ， 这 远 远 小 于 无 拥塞 的 网 络 中 
的 正常 速率 。 

鉴于 这 种 情况 ， 你 可 能 想 知道 TCP 如 何在 无 线 网 络 中 运转 。 幸 运 的 是 ， 有 许多 解决 
这 个 问题 的 方法 。 最 常见 方法 的 是 ， 在 链 路 层 采 取 一 些 措施 来 减少 或 隐藏 由 于 位 错误 导致 
的 分 组 丢失 。 例 如 ，802.11 网 络 对 所 发 送 的 报 文 提供 了 一 种 前 向 纠 错 FEO 的 方法 ， 使 
一 些 错 误 能 够 在 接收 方 进行 纠正 。 田 一 种 方法 是 链 路 层 重 传 ， 这样 ， 即 使 一 个 分 组 被 损坏 
或 丢失 ， 它 最 终 都 可 以 被 成 功 发 送 ，TCP 永远 不 会 察觉 初始 损失 。 每 一 种 方法 都 有 它 的 
缺点 ，FEC 浪费 了 一 些 带 宽 ， 有 时 仍 会 纠 错失 败 ， 而 重 传 不 仅 增 加 了 连接 的 RTT 及 其 变 
化 情况 ， 而 且 会 导致 更 糟糕 的 表现 。 

在 某 些 情况 下 使 用 的 另 一 种 方法 是 将 TCP 连接 切 分 为 无 线 和 有 线段 。 这 个 方法 有 很 
多 延伸 ， 但 基本 方法 是 将 有 线 报 文 段 上 的 丢失 视 为 拥塞 信号 ， 而 将 无 线 报 文 段 上 的 丢失 视 
为 由 位 错误 引起 的 。 这 种 技术 已 经 在 卫星 网 络 中 使 用 ， 其 RTT 时 间 过 于 元 长 ， 因 此 人 们 
无 法 忍受 更 长 时 间 的 拥塞 处 理 。 不 像 链 路 层 方法 ， 这 种 方法 是 一 种 协议 中 端 到 端 操作 的 基 
本 变换 。 这 也 意味 着 ， 在 连接 的 正 向 和 反 向 路 径 必须 经 过 相同 的 “中 间 金 ”， 这 个 中 间 金 
就 是 用 来 切 分 连接 的 。 

另 一 种 方法 试图 智能 地 区 分 拥塞 和 位 错误 两 种 丢失 的 差异 。 线 索 表 明 拥 塞 导致 丢 包 ， 
例如 RTT 的 增加 和 后 续 的 丢 包 间 的 相关 性 。 显 式 拥塞 通知 (ECN) 标记 (参见 第 6.4.2 
节 ) 也 可 以 提供 一 个 拥塞 即将 来 临 的 迹象 ， 所 以 随后 的 一 系列 损失 更 可 能 与 拥塞 有 关 。 显 
然 ， 如 果 你 能 发 现 这 两 种 丢失 之 间 的 差异 ， 那 么 TCP 不 需要 因 位 错误 有 关 的 丢失 而 降低 
其 窗口 。 不 幸 的 是 ， 这 种 方法 很 难 100% 判 定 ， 同 时 这 一 领域 也 是 研究 的 热点 。 


6.3.2 慢 局 动 

当 源 的 操作 接近 网 络 可 达到 的 能 力 时 ， 使 用 上 述 加 性 增 机 制 是 正确 的 ,但 是 当 产 从 尖 
开始 时 ， 则 要 用 很 长 时 间 才 能 延续 一 个 连接 。 因 此 TCP 提供 第 二 种 机 制 ， 讽刺 性 地 称 为 
MBA (slow start)S ， 它 从 较 小 的 值 开 始 迅 速 增加 拥塞 窗口 ， 以 指数 方式 而 不 是 线性 方 
式 有 效 增 加 拥 堆 窗口 。 

具体 说 来 ， 源 开始 将 CongestionWindow 设置 为 1 个 分 组 ， 当 这 个 分 组 的 确认 到 达 产 


昌 ”尽管 最 初 的 论文 中 将 其 称 为 “slow-start”， 但 今天 “slow start” 更 常用 ， 因 些 此 处 忽略 了 连 字 符 。 


时 ，TCP 将 CongestionWindow 加 1， 然 后 发 送 两 个 分 组 ， 当 收 到 两 个 相应 的 确认 后 ， 
TCP 将 CongestionWindow 加 2 (〈 即 每 个 确认 加 1) ， 然 后 发 送 4 个 
分 组 。 最 终结 果 是 TCP 在 每 个 RTT 内 将 传送 的 分 组 数 加 倍 。 
6-10 显示 了 慢 启 动 期 间 发 送 分 组 数 的 增长 情况 ， 可 与 图 6-8 所 
示 的 累 次 增加 的 线性 增长 情况 相 比 较 。 

开始 时 我 们 会 对 为 什么 把 指数 机 制 称 为 “ 慢 速 ”有 些 迷 惑 ， 
但 如 果 放 在 特定 的 历史 背景 中 就 可 以 解释 了 。 我 们 并 不 需要 将 慢 
启动 与 前 一 小 节 的 线性 机 制 相 比 ， 而 是 与 TCP 的 最 初 行为 相 比 。 
考虑 当 建 立 一 个 连接 和 源 开 始 发 送 分 组 (也 就 是 当 它 目前 没有 分 
ARIE) 时 会 发 生 什么 事情 。 若 源 发 送 通 知 窗口 允许 的 分 组 数 
(这 恰 是 提出 慢 启 动 前 TCP 所 做 的 工作 )， 那 么 即使 网 络 有 大 量 的 
带宽 可 用 ， 路 由 恬 也 可 能 处 理 不 了 这 种 一 连 串 的 分 组 。 这 完全 取 
决 于 路 由 右上 可 用 的 缓冲 区 空间 的 大 小 。 因 此 慢 启 动用 于 将 分 组 
隔 开 ， 使 分 组 突然 增多 的 情况 不 会 发 生 。 换 句 话 说， 尽管 指数 增 
长 比 线性 增长 快 ， 但 慢 局 动 比 起 立即 发 送 整 个 通知 窗口 的 数据 量 
要 “ 慢 ” 得 多 。 | | 

实际 上 慢 启 动能 够 在 两 种 不 同情 况 下 运作 。 第 一 是 在 刚 开 始 
连接 时 ， 源 不 知道 它 在 给 定时 间 内 能 发 送 多 少 分 组 。( 记 住 ，TCP 
能 运行 在 从 9 600bps~2.4Gbps 的 链 路 上 ， 因 此 源 无 法 知道 网 络 的 | 
能 力 。) 在 这 种 情况 下 ， 慢 局 动 在 每 个 RTT 时 间 内 不 断 将 Conges- ”图 6-10 慢 启 动 期 间 
tionWindow 加 倍 直 至 发 生 分 组 丢失 ， 这 时 超时 引起 Congestion- 传输 的 分 组 
Window 的 成 倍 减少 〈 除 以 2). 

使 用 慢 启 动 的 第 二 种 情况 更 为 微妙 ， 这 发 生 在 连接 停止 而 等 得 超时 发 生 的 时 候 。 回 想 
一 下 TCP 滑动 窗口 算法 的 原理 ， 当 一 个 分 组 丢失 时 ， 源 最 终 达 到 某 一 点 ， 在 此 点 上 它 已 
经 发 送 通知 窗口 允许 的 分 组 数量 ， 因 此 当 它 等 竺 一 个 不 会 到 达 的 确认 信息 时 阻 奢 。 最 终 发 
生 超 时 ， 但 在 这 段 时 间 没 有 分 组 在 传送 ， 也 就 是 源 收 不 到 确认 以 “同步 ”新 分 组 的 传送 。 
源 将 收 到 一 个 要 求 重新 打开 整个 通知 窗口 的 一 个 累积 的 ACK， 但 如 上 所 述 ， 源 于 是 用 慢 
司 动 重新 局 动 数 据 流 ， 而 不 是 立即 将 整个 窗口 值 的 数据 都 送 到 网 上 。 

尽管 源 再 次 使 用 慢 启 动 ， 但 现在 所 得 到 的 信息 比 连接 开始 时 要 多 。 尤 其 是 ， 源 知道 
CongestionWindow 的 当前 (并且 是 有 用 的 ) 值 ， 这 是 最 近 一 个 分 组 丢失 前 存在 的 Conges- 
tionWindow 的 值 ， 将 其 除 以 2 作为 丢失 时 的 值 。 可 以 把 它 看 作 目 标 (target) 拥塞 窗口 。 
用 慢 局 动 将 发 送 速率 快速 增长 到 这 个 值 ， 超 过 该 值 后 ， 则 用 累 次 增加 的 方法 。 注 意 ， 要 考 
谍 一 个 小 的 管理 操作 问题 ， 我 们 希望 能 记 住 由 于 成 倍 减少 而 产生 的 目标 拥塞 窗口 以 及 慢 启 
动 所 用 到 的 实际 (actual) 拥塞 窗口 。 为 解决 这 一 问题 ，TCP 引入 一 个 临时 变量 存储 目标 
窗口 ， 一 般 称 为 CongestionThreshold (拥塞 阐 值 )， 它 的 值 等 于 由 于 成 倍 减少 而 产生 的 
CongestionWindow 值 。 然 后 变量 CongestionWindow 被 重 置 为 一 个 分 组 ， 以 后 每 收 到 一 
个 ACK 增加 一 个 分 组 ， 直 至 达到 CongestionThreshold， 在 这 一 点 每 一 个 RTT 增加 一 个 
分 组 。 | | 

换 句 话说 ，TCP 用 如 下 代码 段 定义 拥塞 窗口 : 
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u_int cw = state->CongestionWindow; 
u_int incr = state->maxseg; 


if (cw > state->CongestionThreshold) 
incr = incr x incr / cw; 

State->CongestionWindow = MIN(cw + incr, TCP_MAXWIN): 
} 
其 中 state 表示 某 个 特定 TCP 连接 的 状态 ，TCP_MAXWIN 定义 允许 拥塞 窗口 增长 到 的 
LF. | | 

图 6-11 描绘 了 TCP 的 CongestionWindow 随时 间 增 减 的 轨迹 ， 同 时 说 明 慢 启动 和 加 

性 增 / 乘 性 减 的 相互 作用 。 这 一 轨迹 取 自 一 个 实际 TCP 连接 ， 并 显示 CongestionWindow 
随时 间 变 化 的 当前 值 。 


@ @ 
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TESES ESSE EI SSE EEES ESIS 











4.0 5.0 

ESTE] (E) 

图 6-11 TCP 拥塞 控制 行为 。 曲 线 一 随时 间 变化 的 CongestionWindow 的 值 ， 图 上 方 的 黑 点 一 超时 
图 上 方 的 细 线 二 每 个 分 组 被 传送 的 时 刻 ; 竖 条 三 最 终 要 被 重 传 的 分 组 首次 传送 的 时 刻 


有 关 这 一 轨迹 需 注 意 以 下 几 件 事情 。 首 先 拥 塞 窗口 在 连接 开始 时 迅速 增加 ， 这 对 应 于 
初始 慢 启 动 过 程 。 慢 启动 阶段 持续 到 大 约 进 入 连接 0. 4s 后 几 个 分 组 丢失 ， 此 时 Conges- 
tionWindow 保持 在 约 34KB 处 〈 为 什么 许多 分 组 在 慢 司 动 过 程 中 丢失 将 在 下 面 讨 论 ) 。 拥 
塞 窗口 不 变 是 由 于 几 个 分 组 丢失 而 导致 没有 ACK 到 达 。 事 实 上 ， 在 这 段 时 间 里 没有 发 送 
新 的 分 组 ， 如 图 6-11 中 上 方 没 有 小 条 的 那 一 段 。 最 后 大 约 在 2s 时 发 生 超 时 ， 此 刻 拥 塞 窗 
口 减 半 〈 即 从 大 约 34KB 减 到 17KB 左右 )， 同 时 CongestionThreshold 也 被 设置 为 该 值 。 
然后 慢 启 动 将 CongestionWindow 重 设 为 1 个 分 组 并 开始 由 此 增加 。 

在 这 一 轨迹 中 没有 足够 的 细节 可 以 精确 地 看 出 在 刚 过 2s 时 丢失 一 对 分 组 后 发 生 的 事 
情 ， 所 以 直接 来 看 在 2~4s 间 拥 塞 窗 口 的 线性 增加 。 这 对 应 于 本 节 中 的 加 性 增 。 KAM 4s 
开始 ， 由 于 丢失 分 组 Congestion Window @-43H., MÆ, KATE 5. 5s: 

1) 发 生 超 时 ,使 拥塞 窗口 减 半 ， 从 大 约 22KB 降 至 11KB， 同 时 CongestionThresh- 
old 也 设置 为 该 值 。 

2) CongestionWindow 被 重 设 为 1 个 分 组 ， 随 之 发 送 方 进入 慢 启 动 。 

3) 慢 启 动 使 CongestionWindow 按 指数 增加 ， 直 至 CongestionThreshold, 

4) CongestionWindow 开始 线性 增加 。 

大 约 在 8s 时 又 一 次 超时 发 生 ， 重 复 上 述 过 程 。 

现在 我 们 回 到 慢 启 动 开 始 时 为 什么 会 有 许多 分 组 丢失 的 问题 。TCP 在 此 试图 了 解 网 
络 上 有 和 多少 可 用 和 带宽， 这 是 一 项 很 困难 的 任务 。 如 果 源 在 这 个 阶段 不 积极 ,例如 如 果 它 仪 
仅 线性 增加 拥塞 窗口 ， 那 么 要 确定 有 多 少 可 用 带宽 需 用 很 长 时 间 。 这 对 连接 可 达到 的 吞吐 





270 | | ROR 


量 可 能 产生 严重 影响 。 另 一 方面 ， 若 源 在 这 一 阶段 比较 积极 ， 随 着 TCP 采用 指数 增长 ， 
源 可 能 有 窗口 值 一 半 的 分 组 被 网 络 丢 弃 。 

要 了 解 在 指数 增加 过 程 中 的 情况 ， 考 虑 这 样 一 种 情形 , 源 通 过 网 络 刚好 能 成 功 发 送 16 
个 分 组 到 目的 地 ， 这 使 拥塞 窗口 增 至 32。 但 是 假设 网 络 碰巧 只 有 文 持 从 这 个 源 发 送 的 16 
个 分 组 的 能 力 ， 那 么 在 新 的 拥塞 窗口 之 下 发 送 的 32 个 分 组 中 的 16 个 可 能 被 网 络 丢 径 。 实 
际 上 ， 这 只 是 最 坏 的 情形 ， 因 为 在 某 些 路 由 器 上 还 可 以 缓存 一 些 分 组 。 这 个 问题 会 随 看 网 
络 的 延迟 带宽 积 的 增加 而 变 得 日 益 严重 。 比 如 说 ， 延 迟 带宽 积 为 500KB， 这 意味 着 在 每 个 
连接 开始 时 ， 每 个 连接 最 多 可 能 丢弃 500KB 的 数据 。 当 然 ， 这 是 假设 源 和 目的 地 都 实行 
“RA e 
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宽 。 一 个 最 近 的 例子 是 正在 IETF 进行 标准 化 的 快 启动 Cquick-start) 机 制 。 其 基本 思想 
是 TCP 发 送 方 能 够 在 SYN 分 组 的 IP 选项 中 放置 请 求 速 率 来 请 求 一 个 比 慢 局 动 初始 发 送 
速率 高 的 初始 发 送 速率 。 沿 途 路 由 器 可 以 检查 选项 ， 在 该 流 经 过 的 链 路 上 估计 拥塞 程度 ， 
决定 是 否 该 速率 是 可 接受 的 ， 是 否 一 个 较 低 的 速率 是 可 接受 的 ， 或 者 是 否 应 该 使 用 标准 的 
慢 启 动 。 当 SYN 到 达 接 收 方 时 ， 它 将 包含 路 径 上 所 有 路 由 器 可 接受 的 速率 以 及 路 径 上 不 
支持 快 启动 请 求 的 一 台 或 多 台 路 由 器 的 指示 。 在 前 一 情况 下 ，TCP 发 送 方 使 用 该 速率 开 
始 传输 ;在 后 一 情况 下 ， 它 返回 到 标准 的 慢 启 动 。 如 果 人 允许 TCP 以 较 高 的 速率 启动 ， 那 
么 会 话 能 够 更 快 地 进入 传输 流 ， 而 不 必 等 等 多 个 往返 时 间 。 

显然 如 此 改进 TCP 面临 的 挑战 之 一 是 相对 于 标准 TCP 而 言 的 ， 它 需要 路 由 喜 进 行 更 
充分 的 协调 。 如 果 路 径 中 的 一 人 台 路 由 器 不 支持 快 启动 ， 那 么 系统 只 能 返回 到 标准 的 慢 启 
动 。 因 此 ， 这 种 改进 要 用 在 因特网 中 还 需要 相当 长 的 时 间 。 目 前 ， 这 种 方法 主要 使 用 在 受 
控制 的 网 络 环境 中 〈 例 如 ， 研 究 性 的 网 络 ) 。 


6.3.3 快速 重 传 和 快速 恢复 


至 今 描述 的 机 制 只 是 将 拥塞 控制 加 至 TCP 中 的 最 初 方案 的 一 部 分 。 人 们 很 快 发 现 ， 
TCP 超时 的 粗 粒 度 实现 方法 导致 连接 在 等 待 一 个 计时 器 超时 时 ， 有 很 长 一 段 时 间 连 接 无 
效 。 因 此 ， 一 种 称 为 快速 重 传 (ast retransmit) 的 新 机 制 被 加 入 到 TCP 中 。 人 快速 重 传 是 
一 种 启发 式 的 机 制 ， 有 时 它 触发 对 丢失 分 组 的 重 传 比 常规 超时 机 制 更 快 。 快 速 重 传 机 制 并 
不 能 代替 常规 超时 机 制 ， 它 只 是 增强 功能 。 | 

快速 重 传 的 思想 简单 明了 。 每 当 数 据 分 组 到 达 接 收 方 时 ， 接 收 方 会 用 ACK 作为 响应 ， 
即使 这 个 序号 已 被 确认 过 。 这 样 ， 当 分 组 没有 按 正 常 顺序 到 达 ， 或 当 TCP 由 于 它 前 面 的 
数据 还 没有 到 达 而 不 能 确认 分 组 中 的 数据 时 ，TCP 会 将 它 上 次 发 过 的 确认 信息 再 发 一 次 。 
同一 个 确认 的 第 二 次 重 传 称 为 重复 确认 (duplicate ACK)。 当 发 送 方 发 现 一 个 重复 确认 
时 ， 它 束 知 过 接收 方 必定 收 到 一 个 未 按 正常 顺序 到 达 的 分 组 ， 表 明 它 前 面 的 分 组 可 能 
失 。 由 于 前 面 的 分 组 有 可 能 只 是 延迟 到 达 ， 并 没有 丢失 ， 所 以 发 送 方 等 待 ， 直 至 看 到 一 定 
数量 的 重复 确认 ， 然 后 才 重 传 丢 失 的 分 组 。 实 际 应 用 中 ，TCP 等 待 直到 看 到 三 个 重复 确 
认 ， 才 开始 重 传 分 组 。 | 

图 6-12 说 明了 重复 确认 如 何 导 致 快速 重 传 的 过 程 。 在 此 例 中 ， 目 的 地 址 收 到 分 组 1 
和 分 组 2， 但 分 组 3 在 网 络 中 丢失 。 这 样 ， 目 的 地 址 在 分 组 4 到 达 时 为 分 组 2 发 送 一 个 重 
复 确认 ， 当 分 组 5 到 达 时 又 发 一 个 ， 依 此 类 推 。 (为 简化 这 个 例子 ， 我 们 按 分 组 1、2、3 
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等 来 考虑 ， 而 不 必 考 虑 每 个 字 节 的 序号.) 当 发 送 方 看 到 分 组 2 的 第 


送 第 三 个 确认 是 因为 接收 方 已 收 到 分 组 6) ， 它 就 重 传 分 组 
3。 注 意 当 被 重 传 的 分 组 3 的 拷贝 到 达 目 的 地 时 ， 接 收 方 给 源 
发 送 一 个 累积 确认 ， 用 于 确认 已 收 到 包括 分 组 6 的 所 有 分 组 。 

图 6-13 说 明了 带 有 快速 重 传 机 制 的 一 个 TCP 版 本 的 行 
为 。 如 果 和 图 6-11 中 的 轨迹 〈 其 中 未 实现 快速 重 传 ) 相 比 ， 
你 会 发 现 一 个 有 趣 的 现象 : 拥塞 窗口 保持 不 变 且 没有 分 组 发 
送 的 那 段 很 长 的 时 间 已 经 被 消除 。 通 常 ， 在 一 次 典型 的 
TCP 连接 中 ， 这 种 技术 可 以 消除 大 约 一 半 的 粗 粒度 的 超时 ， 
从 而 使 吞吐 量 比 其 他 方法 提高 20% 左 右 。 但 要 注 ; 


意 ， 快 速 
重 传 策略 并 不 能 消除 所 有 粗 粒 度 的 超时 。 这 是 因为 对 于 小 的 





窗口 ， 没 有 足够 多 的 分 组 传送 引起 足够 多 的 重复 确认 。 假 设 


丢失 足够 多 的 分 组 〈 例 如 ， 在 初始 慢 启 动 阶段 所 发 生 的 )， 
滑动 窗口 算法 最 终 阻塞 发 送 方 直至 超时 发 生 。 假 设 当 前 最 大 
通知 窗口 为 64KB， 在 实际 应 用 中 ，TCP 的 快速 重 传 机 制 的 
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三 个 重复 确认 时 (发 








发 送 方 搂 收 方 
分 组 1 ~ | 
分 组 2 ， | 
分 组 3 ~ ss | 确认 1 

TS 


分 组 4 


分 组 5 < 
分 组 6 | 


A Sitan FA 
3 gq 
BE § 


图 6-12 基于 重复 ACK 的 


每 个 窗口 最 多 能 检测 到 三 个 被 丢弃 的 分 组 。 REE 
ei ahi 下 ass Hist "i RaR gnii T 
P eS 
3.0 4.0 5.0 6.0 7.0 
| 时 间 ( 秒 ) 
图 6-13” 带 快速 重 传 的 TCP 轨迹 。 曲 线 一 拥塞 窗口 ; 黑 点 一 超时 ， 细 线 标记 一 


每 个 分 组 传送 的 时 刻 ; EA 


最 终 被 重 传 的 分 组 的 首次 传送 时 刻 


最 后 ， 我 们 可 以 再 做 一 个 改进 。 当 快速 重 传 机 制 发 出 拥塞 信号 时 ， KIRJE A CG E 
1 个 分 组 并 启动 慢 启动 ， 而 是 可 能 利用 还 在 管道 中 的 ACK 去 同步 分 组 的 发 送 。 这 种 称 为 
快速 恢复 (ast recovery) 的 机 制 有 效 地 消除 了 在 快速 重 传 检测 到 一 个 丢失 分 组 并 开始 加 


性 增 之 间 的 慢 局 动 过 程 。 


连接 开始 和 发 生 粗 粒度 超时 的 时 刻 。 


例如 ,快速 恢复 避免 了 图 6-13 中 3. 8~4s 之 间 的 慢 启 动 过 程 ， 直 
接 将 拥塞 窗口 减 半 OM 22KB 减 至 11KB) 并 重新 开始 加 性 增 。 


换 句 话说 ， 慢 启动 仅 用 于 


在 其 他 时 间 ， 拥 塞 窗口 遵循 加 性 增 / 乘 性 减 模式 。 





快速 3 TCP? 
Se 
复杂 了 ， 因 此 随 着 网 络 向 G 比特 的 范围 发 展 ， 它 
次 受到 发 斥 。 ee ee dad 
的 拥塞 控制 行为 分 析 显 示 出 ， 在 稳定 状态 下 ，TCP 的 吞吐 量 大 约 是 : 
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Rate = 
= Gare 


能 在 主机 软件 上 运行 


。 首 先 有 声明 说 TCP K 
THAR. BREWS 
是 受 限 制 的 。TCP 
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在 具有 100ms RTT 和 10Gbps 链 路 的 网 络 上 ， 如 果 分 组 丢失 率 在 每 50 亿 个 分 组 丢失 1 个 
以 下 的 话 一 一 等 价 于 每 100 分 钟 出 现 一 个 拥塞 事件 ， 那 么 一 个 TCP 连接 只 能 达到 接近 于 
链 路 速率 的 乔 叶 量 。 虽 然 光纤 上 比特 错误 率 很 低 ， 分 组 丢失 率 很 小 ， 但 也 比 这 个 要 求 的 分 
组 丢失 率 高 得 多 ， 因 此 不 可 能 用 单一 TCP 连接 填充 管道 。 人 们 提出 了 许多 在 高 带宽 网 络 
上 改进 TCP 行为 的 方案 ， 增 加 了 其 范围 。 受 限于 MSS， 已 经 提出 的 一 个 简单 的 改进 是 增 
加 分 组 大 小 。 不 幸 的 是 ， 增 加 分 组 大 小 也 增加 了 给 定 分 组 出 现 比 特 错 误 的 机 会 ， 因 此 单纯 
增加 MSS 不 是 足够 的 。IETF 提出 的 其 他 方案 对 TCP 避免 拥塞 的 方式 进行 了 改进 ， 试 图 
使 TCP 能够 更 好 地 利用 可 用 带宽 。 这 里 的 挑战 对 于 标准 TCP 实现 来 说 是 公平 的 ， 对 于 训 
免 导致 当前 TCP 行为 的 拥塞 事件 来 说 也 是 公平 的 。 

目前 探索 性 的 RFC 提出 了 高 速 TCP 方案 ， 这 对 于 在 高 带宽 环境 下 并 且 不 和 和 其 他 大 量 
流量 竞争 情况 下 的 TCP 来 说 是 有 效 的 。 实 际 上 ， 当 拥塞 窗口 变 得 很 大 时 ,高速 TCP 以 比 
标准 TCP 大 得 多 的 拥塞 窗口 来 启动 。 在 拥塞 窗口 相对 比较 小 的 一 般 环 境 下 (大 约 40X 
MSS) ， 高 速 TCP 与 标准 TCP 是 无 法 区 分 的 。 在 “扩展 阅读 ”中 列 出 的 部 分 其 他 方案 也 
是 如 此 。 注 意 ， 在 Linux 操作 系统 中 默认 的 TCP 行为 现在 是 基于 一 个 叫 作 CUBIC 的 TCP 
变种 ， 它 和 急剧 扩大 了 在 高 延 识 带宽 积 制度 下 的 拥塞 窗口 。 同 时 在 带宽 受 限 的 情况 下 ， 保 持 
与 旧 TCP 变种 的 兼容 性 。 

上 面 提 到 的 是 快 启动 方案 ， 它 改变 了 TCP 的 启动 行为 。 因 为 它 使 TCP 连接 能 够 更 快 
地 提高 发 送 速率 ， 因 此 当 连 接 时 间 比 较 短 或 应 用 程序 周期 性 地 停止 发 送 数据 使 TCP RE 
到 慢 启 动 阶段 时 ， 它 对 TCP 性 能 的 影响 是 非常 明显 的 。 

然而 另 一 个 方案 FAST TCP 采取 了 类 似 TCP Vegas (在 下 一 章 中 描述 ) 的 方法 。 其 
基本 思想 是 预测 拥堵 的 发 生 并 避免 它 ， 从 而 在 减少 拥塞 窗口 时 避免 性 能 损失 。 

好 几 种 方案 涉及 了 对 TCP 的 更 大 改变 ， 甚 至 用 新 开发 的 协议 对 其 进行 了 替换 。 这 些 
方案 对 于 在 高 带宽 环境 下 快速 并 公平 地 填充 管道 有 相当 大 的 好 处 ， 但 也 面临 着 需要 更 高 配 
置 的 挑战 。 本 章 末 将 向 读者 介绍 该 领域 的 最 新 工作 进展 。 








TCP 


理解 这 一 点 是 重要 的 。 事实 上 ，TCP 在 努力 找到 拥塞 发 生 点 的 过 程 中 不 断 地 给 网 络 增加 
负载 ， 然 后 从 这 一 点 回 退 。 换 言 之 ，TCP 需要 制造 丢失 分 组 来 发 现 连接 的 可 用 带宽 。 另 
外 一 种 富有 吸引 力 但 还 未 被 广泛 接受 的 策略 ， 就 是 预测 拥塞 将 在 何 时 发 生 ， 然 后 在 分 组 刚 
要 被 丢弃 前 降低 主机 发 送 数据 的 速率 ， 我 们 称 这 种 策略 为 拥塞 避免 (congestion avoid- 
ance)， 以 便 与 拥塞 控制 〈congestion control) 相 区 别 。 

本 节 描 述 三 种 不 同 的 拥塞 避免 机 制 。 前 两 种 方法 很 相似 : 它们 在 路 由 器 上 增加 少量 附加 
功能 来 协助 拥塞 中 的 端 节 点 。 第 三 种 机 制 和 前 两 种 截然 不 同 ， 它 试图 纯粹 从 端 节 点 避免 拥塞 。 


6.4.1 DECbit 


第 一 种 机 制 用 于 数字 网 络 体系 结构 (Digital Network Architecture, DNA), DNA 是 
使 用 面向 连接 的 传输 层 协议 的 一 个 无 连接 网 络 。 因此 这 种 机 制 可 用 于 TCP 和 IP。 如 上 所 
述 ， 这 种 机 制 的 思想 是 更 均匀 地 将 拥塞 控制 的 责任 分 摊 给 路 由 器 和 端 节点 。 每 台 路 由 器 监 
饮 当 前 负载 并 且 在 拥塞 将 发 生 时 明确 地 通知 端 节点 。 这 种 通知 是 通过 在 流 经 路 由 器 的 分 组 
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中 设置 1 个 二 进 制 拥塞 位 来 实现 的 ， 这 个 位 因此 叫 作 DECbit。 然 后 目标 主机 将 这 一 拥塞 位 
复制 到 它 传送 回 源 的 ACK 中 。 最 后 源 调整 发 送 速率 来 避免 拥塞 。 下 面 的 讨论 描述 更 多 算法 
的 细节 ， 从 路 由 器 中 发 生 的 情况 开始 。 

一 个 拥塞 位 被 加 到 分 组 首部 。 在 分 组 到 达 时 ， 如 果 平 均 队列 长 度 大 于 或 等 于 1， BA 
路 由 器 就 在 分 组 中 设置 这 一 位 。 平 均 队列 长 度 用 最 近 一 次 忙 十 闲 “〈busy 十 idle) 周期 加 上 
当前 忙 周期 的 时 间 间 隔 来 测量 。〈 当 路 队列 长 并 
由 器 传送 分 组 时 称 为 忙 ， 否 则 称 为 闲 。) | | : 
图 6-14 显示 了 路 由 大 上 的 队列 长 度 是 时 a | 
间 的 函数 。 本 质 上 讲 ， 路 由 器 计算 曲线 —_ cy epee 
下 的 区 域 ， 并 以 此 值 除 以 这 段 时 间 间 隔 \ / 
来 计算 平均 队列 长 度 。 用 队列 长 度 为 1 


yga Erny 





/ 
作为 设置 拥塞 位 的 触发 点 是 对 于 有 效 排 oa | = 
BA CAI BG te ter Fr ES) 和 增加 空闲 时 间 a 
CIAL UG ee IG EDR) 的 一 种 折衷 方案 。 换 | g 
-一 一 一 平均 间隔 一 一 | 


言 之 ， 长 度 为 1 的 队列 看 起 来 优化 了 能 
JI KZ. 图 6-14 在 路 由 器 上 计算 平均 队列 长 度 

下 面 我 们 再 来 看 看 这 种 机 制 中 主机 部 分 需 做 的 工作 。 源 记录 有 多 少 个 分 组 引起 路 由 器 
设置 拥塞 位 。 实 际 应 用 中 ， 源 维护 一 个 拥塞 窗口 〈 如 同 在 TCP 中 一 样 ) ， 并 观察 最 近 一 个 
窗口 中 引起 设置 拥塞 位 的 分 组 数 的 比例 。 若 这 个 比例 小 于 50%， 源 就 将 其 拥塞 窗口 增加 1 
个 分 组 。 若 这 个 比例 大 于 或 等 于 50% ， 源 就 将 其 拥塞 窗口 减 至 原 有 值 的 0.875， 选 择 50% 
作为 阐 值 ， 是 基于 对 能 力 曲线 中 峰值 的 分 析 。 选 择 “ 增 加 1 个 分 组 ， 减 至 原 拥 塞 窗口 值 的 
0. 875” 的 原则 是 因为 加 性 增 / 乘 性 减 会 使 这 种 机 制 更 加 稳定 。 


6.4.2 ”随机 早期 检测 (RED) 


第 二 种 机 制 叫 作 随机 早期 检测 (Random Early Detection，RED) ， 它 与 DECbit 很 相 
似 ， 是 在 每 台 路 由 器 上 编程 监视 目 己 的 队列 长 度 ， 当 检测 到 拥堵 即将 发 生 时 ， 就 通知 源 调 
整 拥塞 窗口 。RED 是 在 20 世纪 90 FREH Hh Sally Floyd 和 Van Jacobson 发 明 的 ， 它 与 
DECbit 方案 主要 有 两 点 不 同 。 

首先 ，RED 不 是 显 式 地 发 送 一 个 拥塞 通知 消息 给 源 ，RED 最 常见 的 实现 方式 是 通过 
丢弃 一 个 分 组 隐 式 地 通知 源 发 生 拥 塞 。 因 此 ， 源 实际 上 是 通过 随 之 而 来 的 超时 或 重复 确认 
得 到 通知 。RED 被 设计 为 与 TCP 配合 使 用 ， 目 前 通过 超时 方式 检测 拥塞 (或 者 通过 其 他 
方式 检测 丢失 分 组 ， 例 如 重复 确认 )。 至 于 RED 和 名称 中 的 “早期 ”一 词 ， 是 指 网 关 会 在 它 
不 得 不 丢弃 一 个 分 组 之 前 就 提前 把 它 丢 弃 ， 以 此 通知 源 应 提早 减少 拥塞 窗口 。 换 言 之 ， 路 
由 器 在 它 的 缓冲 区 被 完全 填 满 之 前 就 提前 丢弃 少量 的 分 组 ， 以 此 使 源 放 慢 发 送 分 组 的 速 
率 ， 作 为 表明 以 后 不 必 再 丢弃 大 量 分 组 的 希望 。 需 要 说 明 的 是 ，RED 只 要 简单 地 将 丢弃 
(dropping) 分 组 改 为 标记 (marking) 分 组 ， 就 可 以 很 容易 地 让 它 与 显示 的 反馈 方案 一 同 
工作 ， 详 细 讨 论 见 下 面 的 显 式 拥塞 通知 。 | 








显 式 拥塞 通知 (ECN) 
由 于 目前 的 RED 总 是 通过 丢弃 分 组 发 出 拥塞 信号 ， 因 此 最 近 人 们 已 经 在 关注 采用 显 


式 通 知 是 否 是 一 个 更 好 的 策略 。 这 就 导致 了 制定 因特网 的 显示 拥 寨 通知 〈Explict Conges- 
tion Notification，ECN) 标准 。 | 

基本 争论 是 ， 丢 弃 分 组 当然 可 以 作为 发 生 拥 塞 的 信号 ,而且 对 于 那 些 长 时 间 的 大 块 传输 
来 说 可 能 是 正确 的 做 法 ， 但 是 这 样 做 会 损害 那些 对 延迟 和 丢失 几 个 分 组 敏感 的 应 用 。 例 如 像 
Telnet 和 Web 浏览 这 样 的 交互 式 应 用 ， 通 过 显 式 通知 来 获知 拥塞 将 对 这 类 应 用 更 为 合适 。 
| ECN 在 技术 上 需要 用 2 比特 位 ， 建 议 标准 使 用 IJP TOS 字段 的 第 6 位 和 第 7 位。 其 中 
一 位 是 由 信 源 设置 的 ECN 位 ， 表 明 源 端 能 够 处 理 拥塞 通知 。 另 一 位 由 端 到 端 路 径 上 的 路 
由 器 在 发 生 拥 塞 时 设置 ， 由 目的 主机 返回 给 源 主机 。 源 主机 上 运行 的 TCP 将 对 ECN 位 的 
设置 值 做 出 响应 ， 响 应 方式 与 对 被 丢弃 分 组 的 响应 一 样 。 | 

正 像 任何 好 主意 一 样 ， 最 近 ECN 引起 的 关注 已 经 让 人 们 停 下 来 并 开始 思考 ， 如 何 使 
网 络 从 在 网 络 边缘 的 主机 与 网 络 中 间 的 路 由 器 之 间 以 ECN 方式 交换 数据 分 组 上 撒 i? BN a 
| 息 这 一 方式 中 获 益 。 这 种 通用 的 策略 有 时 称 为 活动 队列 管理 (active queue management)， 
而 且 近 期 的 研究 似乎 表明 ， 这 对 那些 具有 较 大 延迟 -带宽 的 TCP 流 尤其 有 价值 。 有 兴趣 的 
读者 可 以 进一步 阅读 本 章 最 后 给 出 的 相关 参考 文献 。 


RED 和 DECbit HATA BEER NEAR AMER a y 
上 。 为 理解 其 基本 思想 ， 考 虑 一 个 简单 的 FIFO 队列 。 它 不 是 等 队列 完全 排 满 以 后 再 将 每 
个 到 达 的 分 组 丢弃 (6. 2. 1 节 的 队 尾 丢弃 策略 )， 而 是 当 队 列 长 度 超过 某 个 丢弃 级 别 (drop 
level) 时 ， 按 照 某 个 丢弃 概率 (drop probability) 将 到 达 的 分 组 丢弃 。 这 种 思想 称 为 早 其 
随机 丢弃 Cearly random drop), RED 算法 定义 如 何 监视 队列 长 度 和 何 时 丢弃 分 组 的 细节 。 

在 下 面 的 段落 中 ， 我 们 描述 由 Floyd 和 Jacobson 最 初 提 出 的 RED 算法 。 我 们 注意 到 ， 
还 有 发 明 人 和 其 他 研究 者 提出 的 几 种 改进 算法 ， 本 章 的 “扩展 阅读 ”将 讨论 其 中 的 一 些 改 
进 算 法 。 然 而 ， 其 基本 思想 与 下 面 描 述 的 相同 ， 当 前 的 实现 也 接近 于 下 面 的 算法 。 

第 一 ，RED 用 加 权 动 态 平均 值 来 计算 平均 队列 长 度 ， 这 个 加 权 动 态 平均 值 和 最 初 
TCP 超时 计算 中 用 到 的 权 值 类 似 。 就 是 说 ，AvgLen 用 如 下 公式 计算 

AvgLen = (1— Weight) X AvgLen+ Weight X SampleLen 

其 中 0 过 Weight<l H SampleLen 是 样本 测量 时 的 队列 长 度 。 在 大 多 数 软件 实现 中 ， 每 当 一 个 
新 的 分 组 到 达 网 天时， 就 测量 一 次 队列 长 度 。 在 硬件 中 ， 它 可 以 在 某 个 特定 的 采样 间隔 计算 。 

使 用 平均 队列 长 度 而 不 是 瞬间 队列 长 度 ， 是 因为 平均 队列 长 度 能 更 准确 地 捕获 拥塞 的 
动 丫 。 由 于 因特网 通信 和 量 的 突 发 性 ， 队 列 会 突然 排 满 然 后 又 变 空 。 如 果 队 列 大 部 分 时 间 都 
ZEN, ABATE HH 2H ib BS A as HH SEE EL 
放 慢 速度 可 能 并 不 合适 。 于 是 ， 加 权 动 态 平均 
值 的 计算 试图 通过 滤 出 队列 的 短期 变化 来 检测 oe 
长 期 存在 的 拥塞 ， 如 图 6-15 的 右 半 部 分 所 示 ， A 
可 以 把 动态 平均 值 想象 成 一 个 低 通 滤波 器 ， 其 
中 Weight 〈 权 值 ) 决定 滤波 器 的 时 间 常 量 。 如 AT 
何 选择 这 个 时 间 常 量 的 问题 将 在 下 面 讨论 。 

第 二 ，RED 有 两 个 队列 长 度 阔 值 用 于 触发 
某 种 特定 的 活动 : MinThreshold (ix /) Bd 1B) 
和 MaxThreshold (最 大 阅 值 )。 当 分 组 到 达 网 图 6-15 加权 动 态 平均 队列 长 度 


队列 长 度 
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RIN, RED 将 当前 的 AvgLen ARANE, A PA 
如 采 AvgLen<MinThreshold 
一 分 组 入 队列 
如 采 MinThreshold< AvgLen< MaxThreshold 
一 计算 概率 P 
一 按 概率 卫 丢 弃 到 达 的 分 组 
如 采 MaxThreshold<AvgLen 
一 丢弃 到 达 的 分 组 \ 
也 就 是 说 ， 如 有 果 平 均 队 列 长 度 比 下 阐 值 小 ， 那 么 无 需 采 取 任 何 措施 ;如 果 平 均 队 列 长 度 大 
于 上 立 值 ， 那 么 分 组 总 是 被 丢弃 。 如 果 平 均 队列 长 度 在 两 个 阐 值 之 间 ， 那 么 按 某 个 概率 P 
将 新 到 的 分 组 丢弃 。 图 6-16 描绘 了 这 种 情况 。P 和 AvgLen 的 关系 大 致 如 图 6-17 所 示 。 
注意 ， 当 AvgLen 的 值 在 两 个 阔 值 之 间 时 ， 丢 弃 分 组 的 概率 缓慢 增长 ， 在 上 立 值 处 达到 
MaxP， 在 那 一 点 直接 跳 到 l. HEHE: 当 AvgLen 达到 上 阔 值 时 ,温和 的 方法 (丢弃 一 
些 分 组 ) 已 经 不 起 作用 ， 因 此 要 使 用 激进 的 方法 ， 即 丢弃 所 有 到 达 的 分 组 。 有 一 些 研究 者 提 
出 建议 ， 从 随机 丢弃 到 完全 丢弃 应 有 一 个 较 平滑 的 过 渡 ， 而 不 应 用 这 里 所 示 的 突变 方法 。 


P (EF) 


MaxThreshold MinThreshold 1.0 


MaxP 


nee = AvgLen 


| ee 


MinThresh MaxThresh 
图 6-16 Æ FIFO 队列 中 的 RED WA 图 6-17 RED 的 丢弃 概率 函数 


尽管 图 6-17 显示 了 丢弃 概率 只 是 AvgLen 的 函数 ， 但 实际 情况 要 复杂 一 些 。 事 实 上 ， 
P 是 Avglen 和 上 个 分 组 被 丢弃 后 距 当 前 时 间 的 函数 。 具 体 地 说 ， 它 的 计算 公式 如 下 ;， 
TempP= MaxP X (AvgLen— MinThreshold) /(MaxThreshold— MinThreshold) 
P=TempP/(1—count X TempP) 
TempP 是 图 6-17 FEME y 轴 上 的 变量 。 当 Avglen EMT AE ZI, count 记录 有 多 少 
到 达 的 分 组 已 经 排 人 队列 RER). P 随 count 值 的 增加 而 缓慢 增加 ， 由 此 使 得 丢弃 最 近 
一 个 分 组 后 ， 丢 弃 分 组 的 可 能 性 随 着 时 间 的 增加 而 增加 。 这 使 得 间隔 较 小 的 丢 痉 比 间隔 较 
大 的 丢弃 要 少 一 些 。 计 算 P 的 这 一 额外 步骤 是 由 RED 的 发 明 者 引入 的 ， 他 们 观察 到 ， 没 
有 这 一 步 ， 分 组 的 丢弃 就 不 能 很 好 地 按时 间 分 布 ， 而 是 趋 于 成 群发 生 。 由 于 来 目 某 一 连接 
的 分 组 到 达 可 能 是 突 发 式 的 ， 所 以 这 种 成 群 的 丢弃 可 能 使 单条 连接 上 的 丢弃 倍增 。 这 不 是 
我 们 所 期 望 的 ， 因 为 在 每 个 RTT 内 只 于 一 个 分 组 就 足以 让 连接 减少 窗口 尺寸 ， 而 丢 痉 多 
个 分 组 则 会 让 连接 回 退 到 慢 启 动 。 
作为 例子 ， 假 设 设置 MaxP 为 0.02 H count 初始 化 为 0。 如 果 平 均 队 列 长 度 位 于 两 个 
(EL le], M TempP 及 了 的 初始 值 将 是 MaxP 的 一 半 (0.01)。 当 然 ， 到 达 的 分 组 有 
99% 的 可 能 进入 队列 。 随 着 每 个 后 续 的 分 组 不 被 丢弃 ，P 缓慢 增加 ， 当 50 个 分 组 都 无 丢 
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弃 地 到 达 时 ，P 将 加 倍 到 0. 02。 在 未 必 出 现 的 99 个 分 组 无 丢失 到 达 的 事件 中 ，P 达到 1, 
保证 下 一 个 分 组 被 丢弃 。 算 法 部 分 的 重点 是 它 确 保 丢 弃 大 致 随时 间 均 匀 分 布 。 

| 当 AvgLen 超过 MinThreshold 时 ， 如 果 RED VERT —)\BODA, MAK FM 
36 TCP 连接 减 小 它们 的 窗口 尺寸 ， 从 而 降低 分 组 到 达 路 由 器 的 速率 。 如 果 一 切 正 常 ，Av- 
glen 将 随 之 减少 且 拥 塞 得 以 避免 。 队 列 长 度 可 能 保持 较 短 ， 且 由 于 很 少 出 现 分 组 丢 莽 而 
使 吞吐 量 保持 较 高 水 平 。 

注意 ， 由 于 RED 的 操作 是 在 一 个 随时 间 平 均 的 队列 长 度 上 ， 瞬 间 队 列 长 度 可 能 会 远 
大 于 AvgLen。 在 这 种 情况 下 ， 如 果 一 个 分 组 到 达 而 没有 地 方 放置 ， 那 么 它 将 不 得 不 外 丢 
弃 。 一 旦 发 生 这 种 情况 ，RED 将 按 队 尾 丢弃 模式 操作 。RED 的 目标 之 一 是 只 要 可 能 就 避 

RED 的 随机 性 赋予 算法 一 个 有 趣 的 特性 。 由 于 RED 随机 地 丢弃 分 组 ， 所 以 RED 决 
定 丢 弃 某 一 特定 流 的 分 组 的 概率 和 这 个 流 在 路 由 器 上 获得 的 带宽 份额 成 比例 。 这 是 因为 当 
一 个 流 发 送 分 组 的 数量 较 多 时 ， 它 就 提供 更 多 可 供 随机 丢弃 的 候选 分 组 。 这 样 在 RED 中 
就 有 了 某 种 公平 资源 分 配 的 感觉 ， 尽 管 这 绝 不 是 准确 的 。 

结论 ”注意 有 大 量 的 分 析 在 探究 如 何 设 置 各 种 RED 参数 ， 如 MaxThreshold, 

MinThreshold, MaxP 和 Weight， 即 所 有 用 于 优化 能 力 函 数 〈 吞 吐 量 与 延迟 的 比 

率 ) 的 参数 。 通 过 模拟 对 这 些 参数 的 性 能 进行 了 确认 ， 结 果 表 明 算 法 对 这 些 参 数 

不 是 过 分 敏感 的 。 但 重要 的 是 要 记 住 ， 所 有 分 析 和 模拟 都 是 以 网 络 工作 负载 的 特 

性 为 转移 的 。RED 真正 的 贡献 是 给 出 一 种 机 制 ， 通 过 这 种 机 制 ， 路 由 器 可 以 更 精 

确 地 管理 它 的 队列 长 度 。 精 确 地 定义 构成 最 佳 队 列 长 度 的 因素 取决 于 通信 量 的 结 

会 ， 而 且 仍 是 当前 的 研究 主题 ， 人 们 正在 收集 因特网 中 RED 操作 方案 的 实际 信息 。 

考虑 两 个 阐 值 MaxThreshold 和 MinThreshold 的 设置 。 如 果 通 信和 量 相 当 大 ， 那 么 应 将 
MinThreshold 的 值 设 置 得 足够 大 ， 使 链 路 的 利用 率 维持 在 可 接受 的 高 级 别 上 。 而 且 两 个 阐 值 
的 差 值 应 大 于 在 一 个 RIT 中 算出 的 平均 队列 长 度 的 典型 增长 量 。 对 当今 因特网 已 知 的 通信 
量 结合 情况 ， 将 MaxThreshold 设置 为 MinThreshold 的 两 倍 看 来 是 合理 的 。 此 外 ， 我 们 希望 
高 负载 期 间 平 均 队 列 的 长 度 徘徊 在 两 个 阐 值 之 间 ， 应 有 多 于 MaxThreshold 的 足够 空闲 缓冲 
区 来 容纳 因特网 中 自然 产生 的 突 发 性 分 组 ， 从 而 避免 路 由 器 强迫 进入 队 尾 丢弃 模式 。 

上 面 我 们 提 到 ，Weight 决定 动态 平均 低 通 滤波 器 的 时 间 常 量 ， 它 为 我 们 如 何 选择 一 
个 合适 的 Weight 提供 线索 。 回 想 RED 在 拥塞 期 间 通 过 丢弃 分 组 向 TCP 流 发 送信 号 的 情 
况 。 假 设 路 由 器 丢弃 了 来 自 某 一 连接 的 一 个 分 组 ， 然 后 立即 转发 来 自 同 一 连接 的 更 多 的 分 
组 。 当 这 些 分 组 到 达 接 收 方 时 ， 接 收 方 开始 向 发 送 方 发 出 重复 确认 。 当 发 送 方 看 到 足够 的 
重复 确认 后 ， 它 将 减少 其 窗口 尺寸 。 于 是 从 路 由 器 丢弃 一 个 分 组 开始 到 同一 路 由 器 减少 其 
窗口 尺寸 而 使 相关 连接 的 压力 有 所 减轻 为 止 ， 必 须 至 少 占 用 这 个 连接 的 一 次 往返 时 间 。 出 
现 路 由 器 对 拥塞 的 啊 应 时 间 远 小 于 通过 路 由 器 时 连接 的 往返 时 间 的 情况 可 能 并 不 多 。 如 前 
面 指出 的 那样 ，100 ms 是 因特网 上 平均 往返 时 间 的 一 个 不 错 的 估计 值 。 因 此 Weight 应 该 
这 样 选择 ， 能 滤 出 队列 长 度 在 时 间 上 远 小 于 100ms 的 变化 。 

由 于 RED 通过 给 TCP 流 发 信号 告知 它们 减速 的 机 制 工作 ， 因 此 你 可 能 会 想到 ， 如 果 
这 些 信 号 被 忽略 掉 了 会 出 现 什 么 情况 ? 这 通常 称 为 无 应 答 流 Cunresponsive flow) 问题 ， 
多 年 来 人 们 一 直 在 关注 这 个 问题 。 无 应 答 流 使 用 超出 自己 公平 份额 的 网 络 资源 ， 如 果 这 样 
的 流 足 够 多 ， 将 引起 拥塞 崩 演 ， 就 像 在 对 TCP 进行 拥塞 控制 之 前 所 发 生 的 情况 一 样 。6.5 


` 
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节 描 述 的 一 些 技术 通过 把 某 些 类 型 的 通信 量 与 其 他 通信 量 相 区 别 来 缓解 这 个 问题 。 也 可 能 
使 用 一 个 RED 的 变形 丢弃 更 多 对 它 所 发 送 的 初始 暗示 不 做 应 答 的 流 ， 这 将 依然 是 一 个 活 
DR) Dt FE II | 


643 基于 源 的 拥塞 避免 


和 前 面 两 种 依赖 路 由 器 上 新 机 制 的 拥塞 避免 方案 不 同 ， 我 们 现在 描述 的 策略 是 从 终端 
主机 上 检测 拥塞 的 初始 阶段 〈 在 丢失 分 组 发 生前 ) 。 首 先 我 们 对 使 用 不 同 信息 检测 早期 拥 
塞 的 一 系列 相关 机 制 做 一 个 回顾 ， 然 后 再 详细 描述 一 种 特别 的 机 制 。 

这 些 技术 的 基本 思想 是 从 网 络 中 观察 这 样 的 一 些 迹 象 : 某 台 路 由 器 的 队列 正在 增加 ， 
如 采 不 采取 措施 很 快 会 发 生 拥 塞 。 例 如 ， 源 可 能 注意 到 随 着 网 络 中 路 由 器 分 组 队列 的 增 
大 ， 可 以 测量 到 它 发 送 的 每 个 后 继 分 组 的 RTT 都 会 有 增加 。 利 用 这 种 观察 的 一 个 特殊 算 
法 如 下 : 拥塞 窗口 的 正常 增长 就 像 在 TCP 中 那样 ， 但 是 每 隔 两 个 往 返 时 间 延 迟 ， 算法 检 
查 当前 的 RTT 是 否 大 于 迄今 为 止 所 测 到 的 最 大 和 最 小 RTT 的 平均 值 。 如 采 大 于 ， 那 么 算 
法 将 拥塞 窗口 减少 1/8。 

第 二 种 算法 与 上 一 种 相似 。 是 否 改 变 当 前 窗口 大 小 是 根据 RTT ma HRN BS AR 

变化 而 决定 的 。 每 隔 两 个 往返 时 间 延 迟 ， 根 据 以 下 乘积 将 窗口 调整 一 次 。 

(Current Window— OldWindow) X (CurrentRTT— OldRTT) 
FARNE., WOR CZ 1/8; 如 果 结 有 果 为 负 或 为 0， 源 将 窗口 值 增加 1 个 最 大 分 组 
长 度 。 注 意 : 在 每 次 调整 期 间 窗 口 均 会 改变 ， 也 就 是 说 ， 它 围绕 最 佳 点 来 回 摆动 。 





Tahoe、Reno 和 Vegas 

“TCP Vegas” 这 个 名 称 最 早出 现在 以 4.3 BSD Unix 各 各 版 本 发 布 的 TCP 实现 中 
这 些 版 本 称 为 Tahoe 和 各 Reno ( 同 Las Vegas 一 样 ，Tahoe 和 Reno 都 是 美国 内 华 达 州 的 地 
名 )， 同 时 TCP 的 版 本 也 因 BSD 版 本 而 知名 。TCP Tahoe 也 称 为 BSD 网 络 版 1.0 
(BNR1)， 对 应 于 Jacobson 的 拥塞 控制 机 制 的 最 初 实现 ， 它 包括 6.3 市 中 描述 的 除 快速 恢 
复 外 的 所 有 机 制 。TCP Reno 也 称 为 BSD 网 络 版 2.0 (BNR2)， 加 入 快速 恢复 机 制 ， 以 及 
一 种 称 为 分 组 首部 预测 Cheader prediction) 的 优化 措施 ， 用 于 优化 段 按 序 到 达 的 常见 情 
Jo TCP Reno 也 支持 延 座 确认 (delayed ACK 认 一 次 而 不 是 每 个 段 确 
认 一 次 ， 但 这 是 可 选 的 ， 有 时 会 被 关闭 。 在 4.4 BSD Unix 版 本 中 使 用 的 TCP 版 本 加 入 了 
5.2 节 所 述 的 “大 窗口 ”扩展 。 

从 Linux 操作 系统 日 益 普及 和 研究 人 员 数 量 的 激增 来 看 TCP 拥塞 控制 ， 形 势 已 变 得 相当 
复杂 。Linux 提供 了 一 系列 TCP 拥塞 控制 设置 ， 包括 Vegas 选项 和 各 默认 的 TCP 新 变种 CU- 
BIC 选项 用 地 名 来 命名 TCP 变种 已 成 为 风潮 (参见 TCP-Illinois 和 TCP-Westwood)。 

在 对 TCP 家 族 的 讨论 中 ， 应 提出 的 一 点 是 近 几 年 中 TCP 成 为 变化 很 多 的 协议 ， 尤 其 
在 拥塞 控制 机 制 方面 。 事 实 上 ， 对 于 在 哪个 版 本 中 引进 哪 一 种 技术 ， 甚 至 无 法 完全 达成 一 ， 
致 ， 这 是 考虑 了 代码 中 间 版 本 的 可 用 性 和 和 补丁 上 面 加 补丁 的 结果 。 

可 以 肯定 的 是 ， 任 意 两 个 遵循 最 初 规范 的 TCP 实现 尽管 应 该 能 互 操作 ,但 不 一 定 执 
THR. Ral TCP 变种 间 互 操作 的 操作 含义 是 一 个 难题 。 换 旬 话 说， 你 可 以 认为 TCP 
不 再 用 规范 定义 ， 而 由 一 个 实现 来 是 义 。 唯 一 的 问题 是 用 哪个 实现 ? 
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随 着 网 络 接近 拥塞 ， 可 以 看 到 另 一 种 变化 : 发 送 速率 趋 于 平缓 。 第 三 种 方案 利用 了 这 
一 点 。 每 个 RTT 内 ， 它 将 窗口 大 小 增加 一 个 分 组 ， 同 时 将 获得 的 吞吐 量 与 加 一 个 分 组 前 
的 吞吐 量 进行 比较 。 如 果 它 们 的 差 小 于 只 有 一 个 分 组 传送 时 ( 即 和 出 建 立 连接 时 一 样 ) 所 
达到 的 吞吐 量 的 一 半 ， 那 么 算法 将 窗口 减 一 个 分 组 。 这 个 方案 通过 用 网 络 中 未 发 送 完 的 字 
PARU RTT 的 值 来 计算 吞吐 量 。 第 四 种 机 制 ， 我 们 将 更 详细 地 说 明 ， 类 似 上 一 种 算法 ， 
它 注重 吞吐 量 的 改变 ， 更 具体 地 说 注重 发 送 速率 的 改变 。 但 和 第 三 种 算法 中 计算 吞吐 量 的 
方法 不 同 ， 它 不 查看 吞吐 量 坡度 的 变化 ， 而 是 将 测量 到 的 吞吐 量变 化 率 与 理想 的 吞吐 量变 
化 率 作 比 较 。 这 种 算法 称 为 TCP Vegas， 虽然 在 因特网 中 并 未 广泛 使 用 ， 但 这 种 算法 所 使 
用 的 策略 仍 在 继续 研究 中 。( 更 多 信息 请 参看 “扩展 阅读 ”。) 

从 图 6-18 中 给 出 的 标准 TCP 的 轨迹 中 可 直观 地 看 出 Vegas 算法 的 思路 。 (对 TCP 
Vegas 命名 的 解释 参见 相关 主题 “Tahoe, Reno 和 Vegas”。) 图 6-18 的 顶部 显示 连接 的 拥 
塞 窗口 的 变化 ， 它 与 本 节 早 先 给 出 的 轨迹 表示 的 信息 相同 。 图 中 间 和 底部 描绘 了 新 的 信 
息 : 中 间 图 显示 在 源 上 测量 到 的 平均 发 送 速 率 ， 底 部 图 显示 在 瓶颈 路 由 器 上 测 到 的 平均 队 
列 长 度 。 这 三 个 图 在 时 间 上 是 同步 的 。 在 4. 5 一 6s 之 间 (阴影 部 分 )， 拥 塞 窗口 增加 ( 顶 
部 图 ) 。 我 们 希望 看 到 吞吐 量 也 随 之 增加 ， 然 而 吞吐 量 保持 平缓 〈 中 部 图 ) 。 这 是 因为 吞吐 
量 不 可 能 超过 可 用 的 带宽 。 若 超过 这 个 点 ， 窗 口 大 小 的 增加 只 会 导致 分 组 在 瓶颈 路 由 器 上 
占用 缓冲 空间 ORRE). | 
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图 6-18 拥塞 窗口 与 观测 到 的 吞吐 率 (三 幅 图 是 同步 的 )。 上 图 : 拥塞 窗口 ; 中 图 ， 
观测 到 的 吞吐 量 ; FA: 路 由 器 上 占用 的 缓冲 区 。 曲 线 = 拥 塞 窗口 ; 黑 点 = 超时 ; 
细 线 标记 二 每 个 分 组 被 传送 的 时 刻 ; 竖 条 = 最 终 将 被 重 传 的 分 组 第 一 次 传送 的 时 刻 
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有 一 个 有 用 的 比喻 ， 说 明 图 6-18 所 示 的 现象 是 在 冰 上 鸭 驶 。 里 程 表 ARAO) 或 
许 告诉 你 当前 时 速 为 30 英里 /小 时 ， 但 从 车 窗 向 外 看 ， 人 们 是 以 步行 的 速度 〈 测 到 的 发 送 
速率 ) 通过 你 ， 你 才 得 知 你 的 时 速 最 多 5 英里 /小 时 。 额 外 的 能 量 被 汽车 轮胎 〈 路 由 器 组 
冲 区 ) 吸收 了 。 o 

TCP Vegas 用 这 种 思想 测量 和 控制 连接 正在 传送 的 额外 数据 量 ， 所 谓 “ 额 外 数据 ”， 
是 指 源 为 了 让 数据 量 与 当前 可 用 带宽 匹配 而 发 送 的 数据 ， 而 这 些 数据 本 不 应 该 发 送 。TCP 
Vegas 的 目标 是 将 网 络 中 的 额外 数据 量 维持 在 “正常 的 ”标准 上 。 显 然 ， 若 源 正在 发 送 的 
伯 外 数据 量 太 多 ， 则 会 引起 长 时 间 的 延迟 ， 并 可 能 导致 拥塞 。 其次， 车 源 正 在 发 送 的 额外 
数据 过 少 ， 就 不 能 快速 响应 可 用 网 络 带 宽 的 增长 。TCP Vegas 的 拥塞 避免 行为 除了 根据 丢 
弃 分 组 外 ， 还 根据 网 络 中 额外 数据 的 估计 值 的 变化 ， 现 在 我 们 详细 地 描述 算法 。 

BIG, 定义 一 个 指定 流 的 BaseRTT 为 流 无 拥塞 时 分 组 的 RTT 值 。 实 际 应 用 中 ，TCP 
Vegas 将 BaseRTT 设 为 所 有 测 得 的 往返 时 间 的 最 小 值 ， 它 通常 是 在 路 由 器 队列 由 于 这 个 
流产 生 的 通信 和 量 而 增加 之 前 由 连接 发 送 的 第 一 个 分 组 的 RTT。 如 果 假 设 连接 尚未 溢出 ， 
则 所 期 望 的 吞吐 量 为 











ExpectedRate= Congestion Window/BaseRTT 

其 中 CongestionWindow 为 TCP 拥塞 窗口 ， 为 讨论 方便 ， 假 设 它 等 于 传送 中 的 字 节 数 。 

第 二 ，TCP Vegas 计算 当前 发 送 速率 ActualRate。 做 法 如 下 ， 记 录 一 个 不 同 分 组 的 发 送 时 
间 ， 记 下 从 发 送 该 分 组 到 收 到 确认 这 段 时 间 内 传送 的 字 市 数 ， 当 它 收 到 确认 信息 时 ， 计 算 该 分 
组 的 样本 RTT， 最 后 用 传送 字 节 数 除 以 样本 RTT。 上 述 计 算 过 程 每 个 往返 时 间 内 执行 一 次 。 

第 三 ，TCP Vegas 比较 ActualRate 和 ExpectedRate， 并 相应 地 调整 窗口 。 令 Diff= 
ExpectedRate 一 ActualRate。 注 意 按 照 定义 ，Diff 的 值 应 大 于 或 等 于 0, AWN ActualRate>Ex- 
pectedRate 意味 着 需 将 BaseRTT 改变 为 最 近 采 样 的 RTT 值 。 再 定义 两 个 国 值 a 二 8， 它 们 
分 别 大 致 对 应 网 络 中 有 过 少 和 过 多 的 额外 数据 。 当 Diff<a 时 ，TCP Vegas 在 下 一 个 RTT 
中 线性 增加 拥塞 窗口 ， 而 当 Diff>eiy, TCP Vegas 在 下 一 个 RTT 内 线性 减少 拥塞 窗口 。 
当 a<Diff<pit, TCP Vegas 保持 拥塞 窗口 不 变 。 

从 直观 上 我 们 可 以 看 出 ， 实 际 吞 吐 量 和 期 望 春 吐 量 的 差距 越 大 ， 网 络 中 的 拥 赛 越 多 ， 
这 意味 着 发 送 速率 应 当下 降 。 由 阔 值 8 触发 窗口 减 小 。 另 一 方面 ， 当 实际 吞吐 量 与 期 望 看 
吐 量 过 于 接近 时 ， 连 接 处 于 不 能 充分 利用 可 用 带宽 的 危险 中 。 这 时 国信 a 触发 窗 口 增加 。 
总 之 ， 目 标 就 是 将 网 络 中 的 额外 字 节 数 保 持 在 a 和 8 之 间 。 

图 6-19 显示 了 TCP Vegas 拥塞 避免 算法 的 过 程 。 上 图 摘 绘 拥塞 窗口 的 变化 过 程 ， 与 
本 章 给 出 的 吞吐 量 的 其 他 过 程 图 显示 相同 的 信息 。 下 图 显示 期 望 吞 吐 率 和 实际 吞吐 率 ， 它 
们 控制 如 何 设 置 拥塞 窗口 。 下 图 是 对 算法 工作 原理 的 最 好 说 明 ， 上 面 的 线 表 示 Expecte- 
dRate， 下 面 的 线 表示 ActualRate, MBB RABE a 和 8 之 间 的 区 域 ， 阴影 带 的 顶 
部 线 与 ExpectedRate 相距 cKBps， 阴 影 带 的 底部 与 ExpectedRate 相距 6KBps。 目 标 是 将 
ActualRate 保持 在 两 个 阔 值 之 间 ， 也 就 是 在 阴影 区 域内 。 当 ActualRate 在 阴影 区 之 下 
( 即 离 ExpectedRate 太 远 ) AY, TCP Vegas 减少 拥塞 窗口 以 免 在 网 络 中 缓存 太 多 的 分 组 。 
同样 ， 当 ActualRate 在 阴影 区 域 之 上 (BIE ExpectedRate Kit) HT, TCP Vegas 增加 拥 | 
塞 窗 口 以 免 网 络 不 能 被 充 分 利用 。 

如 上 所 述 ， 因 为 算法 将 实际 吞吐 率 与 期 望 知 吐 率 之 间 的 差 和 国 值 < 与 8 比较 ， 所 以 这 
两 个 阔 值 是 通过 KBps 定义 的 。 但 知 通过 网 络 中 一 个 连接 占用 多 少 额 外 的 缓冲 区 和 定义 或 许 
更 为 准确 。 例 如 ， 某 个 连接 的 BaseRTT 为 100ms， 一 个 分 组 长 度 为 1IKB， 和 在 a= 30KBps 
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图 6-19 TCP Vegas 拥塞 避免 机 制 的 图 示 。 上 图 ， 拥塞 窗口 

TA: 期 望 吞吐 量 《上面 的 线 ) 和 实际 吞吐 量 〔 下 面 的 线 )。 


明 影 区 是 在 a 和 86 立 值 中 间 的 区 域 


和 B 二 60KBps， 那 么 我 们 可 认为 a 说明 连 接 在 网 络 中 至 少 应 占用 三 个 额外 缓冲 区 ， 而 Be 
明 连 接 在 网 络 中 占用 的 额外 缓冲 区 应 不 超过 六 个 。 在 实际 应 用 中 ， 将 a 设 为 一 个 缓冲 区 和 
将 B 设 为 三 个 绥 冲 区 较 好 。 | 

最 后 ， 你 会 发 现 TCP Vegas 线性 减少 拥塞 窗口 ， 看 起 来 似乎 与 需要 成 倍 减 少 以 确保 
稳定 性 的 规则 冲突 。 对 此 的 解释 是 ，TCP Vegas 在 发 生 超 时 时 确实 会 使 用 成 倍 减少 ， 而 刚 
描述 的 线性 减少 应 该 是 发 生 在 拥塞 出 现 和 分 组 开始 被 丢弃 之 前 的 拥塞 窗口 中 的 及 年 减少 。 















评价 一 种 新 的 拥塞 控制 机 制 

假设 你 要 开发 一 种 新 的 拥塞 控制 机 制 并 且 想 评估 它 的 性 能 。 例 如 ， 你 或 许 想 将 它 与 当 
前 用 于 因特网 的 机 制 进行 比较 。 如 何 测量 和 评估 你 的 机 制 ? 尽管 曾 有 一 段 时 间 因 特 网 的 主 
要 目的 是 支持 网 络 研究 ， 但 是 现在 它 已 成 为 一 个 大 型 的 实用 网 ， 因 此 完全 不 适 于 进行 一 项 
控制 机 制 的 实验 。 

如 果 你 的 方法 是 纯粹 端 到 端的 ， 即 假设 因特网 中 只 有 了 FIFO 路 由 器 ， 那 么 在 儿 合 主机 
上 运行 拥塞 机 制 并 测量 连接 能 获得 的 吞吐 量 是 可 能 实现 的 。 但 是 在 这 里 我 们 要 加 上 一 个 警 
告 。 发 明 一 个 拥塞 控制 机 制 极 其 容易 ， 它 可 以 获得 5 倍 于 因特网 的 TCP 吞吐 量 。 你 能 以 
很 高 的 速率 简单 地 一 下 把 大 量 的 分 组 放 入 因特网 ， 并 由 此 引发 拥塞 。 所 有 运行 TCP 的 其 
他 主机 检测 到 这 一 拥塞 并 降低 它们 发 送 分 组 的 速率 。 然 后 你 的 机 制 就 可 以 开心 地 占用 所 有 
带宽 。 这 种 策略 很 快 ， 但 是 它 一 点 都 不 公平 。 
直接 在 因特网 上 做 实验 ， 即 使 非常 小 心 ， 也 会 因 你 的 拥塞 控制 机 制 涉及 改变 路 由 器 而 
使 实验 失败 。 为 了 评估 一 种 新 的 拥塞 控制 算法 而 改变 运行 在 成 千 上 万 人 台 路 由 器 上 的 软件 是 
完全 不 实际 的 。 在 这 种 情况 下 ， 网 络 设计 者 被 迪 在 模拟 网 络 或 私 用 测试 网 络 上 测试 他 们 的 
系统 。 例 如 ， 本 章 中 用 到 的 TCP 轨迹 是 由 运行 在 网 络 模拟 器 上 的 TCP 应 用 程序 产生 的 。 
无 论 是 用 模拟 器 还 是 用 测试 平台 ， 提 出 一 个 代表 真实 因特网 中 的 拓扑 结构 和 通信 和 量 的 典型 
实例 都 是 一 项 挑战 。 
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6.5 





结合 音频 、 视 频 和 数据 的 
应 用 程序 。 音 频 和 视频 信息 一 旦 数字 化 ， 终 归 要 像 其 他 数据 格式 一 样 作为 比特 流传 输 。 要 
求 高 带宽 的 链 路 一 直 是 实现 这 一 许诺 的 障碍 。 然 而 ， 近 来 编码 技术 的 发 展 降低 了 音频 和 视 
频 应 用 程序 对 带宽 的 要 求 ， 同 时 链 路 的 速度 也 提高 了 。 

然而 要 在 网 络 上 传输 音频 和 视频 ， 除了 提供 足够 的 带宽 外 ， 还 有 更 多 的 事情 要 做 。 例 
如 ， 电 话 中 的 谈话 双方 希望 能 够 这 样 交 谈 : 一 个 人 既 能 回答 对 方 的 说 话 又 能 让 对 方 立即 听 
到 自己 的 说 话 。 这 样 ， 传 输 的 及 时 性 就 非常 重要 。 我 们 称 对 数据 的 及 时 性 敏感 的 应 用 程序 
为 实时 应 用 程序 (real-time application) 。 音 频 和 视频 应 用 程序 就 是 典型 的 例子 ， 但 是 还 有 
其 他 的 例子 ， 如 工业 控制 一 一 你 想 使 发 送 给 机 器 人 手臂 的 一 条 命令 在 它 撞 向 某 物体 之 前 到 
达 。 甚 至 文件 传输 应 用 程序 也 可 能 有 及 时 性 的 限制 ， 例如 有 这 样 的 需求 ， 第 二 天 要 用 数 
据 ， 应 在 头 一 天 上 晚上 将 数据 库 中 的 更 新 全 部 完成 。 | 

关于 实时 应 用 程序 的 一 个 显著 特点 是 : 它们 需要 来 自 网 络 的 某 种 保证 ， 即 数据 可 以 按 
时 《用 某 种 “按时 ”定义 ) 到 达 。 反 之 ， 非 实时 应 用 能 够 使 用 端 到 端 重 传 策略 来 确保 数据 
正确 到 达 ， 这 种 策略 不 能 提供 及 时 性 ,如果 数据 较 晚 到 达 ， 重 传 只 是 增加 了 总 延迟 。 及 时 
到 达 必 须 由 网 络 本 身 〈 路 由 器 ) 提供 ， 而 不 是 在 网 络 边缘 〈 主 机 ) 提供 。 因 此 我 们 得 出 结 
论 ， 尽 力 服务 模型 对 于 实时 应 用 程序 来 说 是 不 够 的 ， 这 种 模型 试 着 传输 数据 但 不 做 任何 许 
诺 ， 并 将 清除 操作 留 给 边缘 。 我 们 需要 的 是 一 种 新 的 服务 模型 ， 其 中 应 用 程序 可 以 向 网 络 
要 求 更 高 的 保证 。 然 后 网 络 可 能 通过 提供 它 会 做 得 更 好 的 保证 或 者 说 明 不 能 比 此 刻 做 得 更 
好 做 出 响应 。 注 意 ， 这 样 一 个 服务 模型 是 当前 模型 的 超 集 : 在 尽力 而 为 服务 下 运行 很 好 的 
应 用 程序 应 该 能 够 使 用 新 的 服务 模型 ， 它 们 的 需求 不 太 严 格 。 这 意味 着 网 络 将 区 别 对 待 一 
些 分 组 ， 这 是 在 尽力 而 为 服务 模型 中 没有 做 的 。 对 于 提供 不 同 级 别 服务 的 网 络 ， 经 常 被 说 
成 是 文 持 服务 质量 (QoS) 的 。 | 

此 刻 你 或 许 疑 虑 “互联 网 还 没有 支持 实时 应 用 程序 吗 ?” 我 们 多 数 答 试 过 像 Skype 这 
样 的 网 络 电话 应 用 ， 它 运转 正常 的 原因 一 部 分 是 尽力 而 为 服务 时 常 运行 得 很 好 。 (Skype 
公司 还 特别 做 了 一 些 聪明 的 事情 ， 试 图 解雇 互联 网 中 缺乏 的 QoS.) 这 里 的 关键 词 是 “时 
常 ”。 如 果 你 需要 实时 应 用 程序 使 用 的 服务 足够 可 靠 ， 那 么 尽力 而 为 服务 ( 它 不 作 任 何 保 
证 ) 并 不 够 可 靠 。 我 们 稍 后 会 探讨 QoS 的 必要 性 。 
































6.5.1 应 用 需求 


在 考虑 用 于 给 应 用 程序 提供 服务 质量 的 各 种 协议 和 机 制 之 前 ， 我 们 先 试图 了 解 这 些 应 
用 程序 需要 什么 。 首 先 我 们 把 应 用 程序 分 为 两 类 : 实时 的 和 非 实 时 的 。 后 者 有 时 称 为 传统 
数据 (traditional data) 应 用 程序 ， 因 为 在 传统 的 数据 网 络 上 它们 一 直 是 主要 的 应 用 程序 ， 
包括 大 多 数 流行 的 应 用 程序 ， 如 Telnet, FTP. email, Web 浏览 ， 等 等 。 这 些 应 用 程序 
不 需要 保证 数据 的 实时 传输 也 能 正常 运行 。 非 实时 类 应 用 程序 的 为 一 个 术语 是 弹性 Celas- 
tic)， 因 为 当 它 们 面临 延迟 增加 时 ， 能 有 很 好 的 伸展 余地 。 注 意 ， 这 些 应 用 程序 能 够 从 更 
短 的 延迟 中 获 益 ， 而 当 延 迟 增加 时 它们 也 不 会 变 得 不 可 用 。 还 要 注意 ， 它 们 的 延迟 要 求 从 
像 Telnet 这 样 的 交互 式 应 用 变化 到 像 email 一 样 更 加 异步 的 应 用 ， 中 间 有 像 FTP 这 样 的 
交互 式 大 容量 传输 。 | 

















1. 实时 音频 实例 

作为 实时 应 用 程序 的 一 个 具体 例子 ， 考 虑 类 似 于 图 6-20 所 示 的 一 个 音频 应 用 程序 。 
通过 从 麦克 风采 样 而 生成 数据 ， 并 且 用 模 数 (A-~D) 转换 器 将 它们 数字 化 。 将 数字 样本 
放 在 分 组 中 ， 分 组 是 通过 网 络 传输 的 ， 在 另 一 端 接收 分 组 ， 接 收 主机 必须 以 适当 的 速率 播 
放 (playback) 数据 。 例 如 ， 如 果 语 音 样 本 是 以 每 125ps 的 速率 被 收集 的 ， 那 么 应 该 以 相 
同 的 速率 对 它们 进行 播放 。 这 样 ， 我 们 可 以 认为 每 个 样本 都 有 一 个 特定 的 播放 时 刻 《play- 
back time): 在 接收 主机 上 恰好 需要 在 这 个 时 刻 来 播放 。 在 这 个 语音 的 例子 中 ， 每 个 样本 
的 播放 时 刻 比 前 一 个 样本 晚 125us。 如 果 数 据 在 它 相 应 的 回放 时 刻 之 后 到 达 ， 无 论 是 因为 
在 网 络 延迟 ， 还 是 因为 被 丢弃 并 重 传 ， 它 基本 上 都 是 无 用 的 。 实 时 应 用 程序 的 特点 是 迟到 
的 数据 会 完全 失去 价值 。 在 弹性 应 用 程序 中 ， 如 果 数 据 按时 到 达 可 能 会 很 好 ， 但 如 果 不 是 
这 样 我 们 仍然 能 使 用 它 。 
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图 6-20 一 个 音频 应 用 


使 我 们 的 语音 应 用 程序 能 工作 的 一 种 方法 是 ， 确 保 所 有 样本 用 完全 相同 的 时 间 通 过 网 
络 。 那 么 ， 由 于 样本 以 每 125us 一 个 的 速率 输入 ， 所 以 它们 将 以 相同 的 速率 出 现在 接收 
端 ， 为 播放 做 好 准备 。 然 而 ， 通 常 很 难保 证 所 有 通过 分 组 交换 网 络 的 样本 恰好 经 历 相 同 的 
延迟 。 分 组 遇 到 交换 机 或 路 由 器 中 的 队列 ， 这 些 队列 的 长 度 随 着 时 间 而 变化 ， 这 意味 着 延 
迟 趋向 于 随时 间 而 变化 ， 结 果 是 音频 流 中 每 个 分 组 的 延迟 都 可 能 不 同 。 在 接收 方 处 理 这 一 
问题 的 方法 是 缓存 一 定量 的 预备 数据 ， 因 此 总 是 为 等 待 在 正常 时 刻 播放 的 分 组 提供 存储 。 
如 果 一 个 分 组 延迟 很 短 一 段 时 间 ， 那 么 它 会 进入 缓冲 区 直到 它 的 播放 时 刻 到 来 。 如 果 它 延 
迟 很 长 时 间 ， 那 么 在 播放 之 前 ， 它 不 需要 在 接收 方 的 缓冲 区 中 存储 很 长 时 间 。 这 样 ， 我 们 
已 经 有 效 地 给 所 有 分 组 的 播放 时 间 增 加 了 一 个 常数 偏 移 量 作为 一 种 保证 方式 。 我们 称 这 个 
偏 移 量 为 播放 点 (playback point) 。 我 们 遇 到 的 唯一 的 麻烦 是 ， 如 果 分 组 在 网 络 中 延迟 了 
过 长 的 时 间 以 至 于 它们 在 其 播放 时 刻 之 后 才 到 达 ， 这 将 使 得 播放 缓冲 区 被 用 尽 。 

播放 缓冲 区 的 操作 如 图 6-21 所 示 。 左 边 的 斜 线 表明 以 固定 速率 产生 的 分 组 。 波 浪 线 
表明 分 组 什么 时 候 到 达 ， 即 它们 被 发 送 后 的 时 间 变化 量 ， 取 决 于 网 络 中 实际 情况 。 右 边 的 
斜 线 表 明 在 进入 播放 缓冲 区 一 段 时 间 之 后 以 | 
固定 速率 播放 的 分 组 。 只 要 播放 线 在 时 间 轴 
上 足够 靠 右 ， 应 用 程序 就 绝 不 会 注意 到 网 络 
延迟 的 变化 量 。 然 而 ， 如 果 我 们 将 播放 线 向 
左 移动 一 点 ， 那 么 一 些 分 组 将 会 由 于 到 达 太 
晚 而 变 得 无 用 。 | 

对 于 音频 应 用 程序 ， 我 们 能 对 播放 数据 
延迟 多 久 设置 限制 。 如 果 你 说 话 的 时 刻 与 你 
的 听众 听 到 的 时 刻 之 间 超过 300ms， 那 么 谈话 NE 
就 很 难 继续 下 去 。 因 此 ， 这 种 情况 下 我 们 想 图 6-21 回放 缓冲 区 
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从 网 络 得 到 的 保证 是 我 们 的 所 有 数据 在 300ms 之 内 到 达 。 如 果 数 据 早 到 达 ， 我 们 将 它 放 到 组 
冲 区 直到 恰当 的 播放 时 刻 到 来 再 播放 它 。 如 果 数 据 晚 到 ， 那 么 它 对 我 们 没有 用 而 必须 将 它 丢弃 。 

为 更 好 地 评价 网 络 延 迟 是 怎样 变化 的 ， 图 6-22 显示 了 某 一 天 的 一 段 时 间 里 在 因特网 
的 某 条 路 径 上 测量 到 的 单 向 延迟 。 尽 管 确切 的 数值 会 随 路 径 和 日 期 有 所 变化 ， 但 是 这 里 的 
关键 因素 是 延迟 的 可 变性 ， 它 在 任何 路 径 上 的 任何 时 间 里 都 可 以 看 得 到 。 正 如 图 上 部 的 累 
积 百分比 所 表示 的 ，97% 的 分 组 有 100ms 或 小 于 100ms 的 延迟 。 这 意味 着 如 果 我 们 的 音 
频 应 用 实例 把 播放 点 设 在 100ms， 那 么 平均 说 来 ， 每 100 个 分 组 中 有 三 个 分 组 将 因 到 达 太 
晚 而 变 得 无 用 。 关 于 此 图 要 注意 的 重要 一 点 是 曲线 的 尾部 〈 即 它 向 右 延 伸 的 长 度 ) 非常 
长 。 我 们 必须 把 播放 点 设 在 200ms 以 确保 所 有 分 组 及 时 到 达 。 | 


3 90% 97% 98% 99% 
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图 6-22 一 个 因特网 连接 延迟 分 布 的 例子 


2. 实时 应 用 分 类 

至 此 我 们 对 实时 应 用 如 何 工作 有 了 一 个 具体 的 认识 ， 接 下 来 可 以 看 看 一 些 不 同类 型 的 
应 用 ， 它 们 能 帮助 我 们 进一步 认识 服务 模型 。 下 面 的 分 类 方法 大 部 分 要 归功 于 Clark, 
Braden、Shenker 和 Zhang 的 工作 ， 他 们 有 关 这 一 问题 的 文章 可 以 在 本 章 的 “扩展 阅读 ” 
中 找到 。 在 图 6-23 中 总 结 了 应 用 的 分 类 。 

我 们 所 依据 的 第 一 个 对 应 用 程序 进行 分 类 的 特性 是 它们 对 丢失 数据 的 容忍 度 ， 其 中 发 
生 “ 丢 失 ” 可 能 是 由 于 一 个 分 组 到 达 太 晚 而 不 能 播放 ,或 是 由 于 网 络 中 正常 的 原因 引起 
的 。 一 方面 ,一 个 丢失 的 音频 样本 可 以 根据 周围 的 样本 插值 ， 这 对 感觉 到 的 音频 质量 只 有 
很 小 的 影响 。 仅 当 越 来 越 多 的 样本 丢失 人 
时 ， 质 量 会 下 降 到 使 语音 变 得 不 可 理解 a 
的 程度 。 另 一 方面 ， 机 器 人 控制 程序 可 一 
能 是 一 个 不 能 容忍 丢失 的 实时 应 用 的 例 EE 
子 一 一 丢失 了 包含 在 指示 机 器 人 手臂 售 a 
止 命令 中 的 分 组 是 不 能 接受 的 。 这 样 ， FABE FEM 
我 们 就 能 根据 实时 应 用 是 否 能 够 容忍 偶 ge 
尔 的 丢失 ， 把 它们 分 成 容忍 型 Ctoler- A ies 
ant) 或 非 容忍 型 intolerant), CMa F5 PREMS TR 
出 ， 注 意 许多 实时 应 用 比 非 实 时 应 用 更 we NN 
能 忍受 偶然 的 丢失 。 例 如 ， 将 我 们 的 音 速率 可 适应 型 。 。 延迟 可 适应 型 
频 应 用 和 FTP 进行 比较 ,文件 中 一 位 不 图 6-23 ”应 用 分 类 
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正确 的 丢失 就 可 能 使 整个 文件 变 得 完全 无 用 。) 

第 二 种 方法 是 根据 适应 性 对 实时 应 用 进行 分 类 。 例 如 ， 一 个 音频 应 用 可 能 适应 
过 网 络 时 经 历 的 延迟 量 。 如 果 注 意 到 分 组 几乎 总 是 在 发 送 后 300ms 之 内 到 达 ， 那 么 
应 地 设置 播放 点 ， 给 少 于 300ms 到 达 的 分 组 分 配 缓 冲 区 。 假 设 随后 看 到 所 有 分 组 都 是 在 
送 后 100ms 之 内 到 达 。 如 果 把 播放 点 提前 到 100ms， 那 么 应 用 的 用 户 可 能 感觉 到 改进 。 这 
个 改变 播放 点 的 过 程 实际 上 需要 我 们 在 某 段 时 间 之 内 以 递增 的 速率 将 样本 播放 完 。 对 于 语 
音 应 用 程序 ， 只 是 通过 缩短 单词 间 的 无 声 时 间 ， 就 能 以 一 种 勉强 可 理解 的 方式 做 到 这 一 
点 。 于 是 ， 在 这 种 情况 下 ， 播 放 点 调整 就 相当 容易 ， 并 且 在 几 个 语音 应 用 程序 中 已 经 锌 有 
效 地 实现 ， 例 如 像 vat 这 样 的 音频 电话 会 议程 序 。 注 意 ， 播 放 点 调整 能 够 在 任 一 方 各 上 发 
生 ， 但 是 实际 上 这 样 做 会 使 调整 期 间 被 播放 的 信号 失真 ， 并 且 这 种 失真 的 影响 将 在 很 大 程 
度 上 取决 于 终端 用 户 怎 样 使 用 数据 。 通 常 ， 非 容忍 型 应 用 不 能 容忍 这 种 失真 ， 就 像 它 们 不 
能 容忍 分 组 的 丢失 一 样 。 

观察 一 下 ， 如 果 依 据 所 有 分 组 将 在 100ms 之 内 到 达 的 假设 设置 我 们 的 播放 点 ， 就 会 发 
现 一 些 分 组 稍 晚 一 些 到 达 ， 我 们 就 不 得 不 丢弃 它 ， 而 如 果 把 播放 点 保留 在 300ms， 束 不 必 
丢弃 它们 。 这 样 ， 只 有 当 它 具有 明显 的 优点 ， 并 且 有 证 据 表 明 扩 到 分 组 的 数目 小 到 能 被 接 
受 的 程度 时 ， 才 可 以 把 播放 点 提前 。 当 有 观察 到 的 近期 历史 记录 或 有 来 自 于 网 络 的 某 种 保 
证 ， 就 可 以 这 样 做 。 

我 们 称 能 够 调节 播放 点 的 应 用 为 延迟 可 适应 的 〈delay-adaptive) 应 用 。 另 一 类 可 适应 
的 应 用 是 速率 可 适应 的 (rate-adaptive) 应 用 。 例 如 ， 许 多 视频 编码 算法 能 够 权衡 比特 速 
率 与 质量 。 这 样 ， 如 果 发 现 网 络 能 够 支持 某 一 市 帘 ， 就 能 相应 地 设置 编码 参数 。 如 末 以 后 
有 了 更 多 的 可 用 市 宽 ， 则 可 以 改变 参数 以 提高 质量 。 

3. 支持 QoS 的 方法 

考虑 到 各 种 应 用 需求 的 广阔 空间 ， 我 们 所 需要 的 是 一 个 应 用 范围 更 广 的 服务 模型 ， 以 
满足 任何 一 种 应 用 和 需求。 这 促使 我 们 提出 一 个 服务 模型 ， 不 仅 提 供 一 种 类 型 的 服务 (尽力 
而 为 服务 )， 而 是 具有 多 类 服务 ， 其 中 的 每 一 类 都 能 满足 某 个 应 用 集合 的 需求 。 为 了 达到 
这 个 目标 ， 我 们 现在 准备 考察 人 们 为 了 提供 一 定 范围 的 服务 质量 而 开发 出 来 的 一 些 方法 。 
这 些 方法 可 以 分 为 两 大 类 : . 

。 细 粒 度 (fine-grained) 方法 ， 它 给 单独 的 应 用 程序 或 流 提供 QoS, 

e H (coarse-grained) 方法 ， 它 给 多 类 数据 或 成 块 通信 和 量 提 供 QoS, 

在 第 一 类 里 我 们 发 现 综合 服务 (Integrated Services) ， 一 种 IETF 开发 的 QoS 体系 结 
构 ， 和 常常 与 资源 预定 协议 (Resource Reservation Protocol, RSVP) 相关 。ATM 的 QoS 
方法 也 属于 这 一 类 。 第 二 类 中 有 区 别 服务 (Differentiated Services) ， 写 本 书 的 时 候 ， 它 可 
能 是 最 广泛 配置 的 QoS 机 制 。 接 下 来 的 两 节 我 们 将 依次 讨论 它们 。 

最 后 ， 正 如 本 市 的 开端 所 述 ， 给 网 络 中 增加 QoS 支持 对 于 实时 应 用 程序 来 说 并 不 是 
必须 的 。 作 为 讨论 的 结束 语 ， 我 们 再 回 到 这 个 问题 : 在 不 依赖 于 广泛 使 用 的 QOS 机 制 
《如 综合 服务 或 区 分 服务 ) 的 情况 下 ， 为 了 更 好 地 支持 实时 流 ， 端 主机 可 能 做 什么 。 


6.5.2 综合 服务 (RSVP)” 
术语 综合 服务 (常常 简称 为 IntServ) 是 指 在 1995 ~1997 年 前 后 由 IETF 所 做 的 主要 
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工作 。IntServ 工作 组 开发 了 大 量 的 服务 类 (service classes) 规范 来 满足 上 述 一 些 应 用 类 
别 的 需要 。 它 还 定义 了 如 何 利用 RSVP 通过 这 些 服务 类 来 做 预定 。 下 面 概要 地 介绍 这 些 规 
范 及 实现 它们 所 用 的 机 制 。 

有 一 个 服务 类 是 为 非 容忍 型 应 用 设计 的 。 这 些 应 用 要 求 分 组 永远 不 推迟 到 达 ， 网 络 应 
该 保证 任意 分 组 所 经 历 的 最 大 延迟 具有 某 一 特定 值 ， 这 样 应 用 程序 就 能 设 定 它 的 播放 点 ， 
以 便 没 有 分 组 会 在 它 的 播放 时 刻 之 后 到 达 。 我 们 假设 总 能 通过 缓存 方法 处 理 早 到 的 分 组 。 
这 种 服务 通常 称 为 有 保证 的 〈guaranteed) 服务 。 

除了 有 保证 的 服务 ，IETF 还 考虑 了 其 他 几 种 服务 ， 但 最 终 确 定 了 一 种 满足 容忍 型 、 
可 适应 型 应 用 需求 的 服务 。 这 种 服务 称 为 受 控 负载 (controlled load)， 它 的 产生 是 因为 我 
们 观察 到 现存 的 这 种 类 型 的 应 用 在 负载 不 重 的 网 络 中 运行 得 相当 好 。 例 如 ， 音 频 应 用 程序 
vat， 随 春 网 络 延 迟 的 变化 调整 它 的 播放 点 ， 只 要 丢失 率 保持 在 小 于 或 等 于 10% 的 水 平 ， 
就 能 产生 相当 好 的 音频 质量 。 

受 欣 负载 服务 的 目的 是 为 请 求 这 种 服务 的 应 用 仿真 一 个 轻 负载 的 网 络 ， 即 使 网 络 作为 
一 个 整体 的 实际 负载 可 能 是 很 重 的 。 它 的 技巧 在 于 使 用 像 WFQ L 6.2 节 ) 这 样 的 排队 
机 制 将 受 欣 负载 通信 量 和 其 他 通信 量 分 开 ， 同 时 使 用 某 种 容许 控制 的 形式 来 限制 一 条 链 路 
上 受 欣 负载 通信 量 的 总 量 ， 从 而 保持 合理 的 低 负 载 。 下 面 我 们 更 详细 地 讨论 容许 控制 。 

显然 ， 这 两 种 服务 类 型 只 是 可 能 提供 的 所 有 服务 类 型 的 一 个 子 集 。 事 实 上， 其 他 服务 
从 未 标准 化 为 IETF 工作 的 一 部 分 。 迄 今 ， 上 述 两 个 服务 〈 包 括 传 统 的 尽力 而 为 服务 ) 已 
被 证 明 足 够 灵活 ， 可 满足 广泛 的 应 用 需求 。 

2. 机 制 概述 

既然 我 们 已 经 用 几 个 新 的 服务 类 扩充 了 尽力 而 为 服务 模型 ， 下 一 个 问题 就 是 怎样 实现 
能 给 应 用 提供 这 些 服务 的 网 络 。 本 节 概 插 其 关键 机 制 ， 阅 读本 节 时 要 记 住 ， 所 描述 的 机 制 
仍 有 竺 因特网 设计 团体 进行 认真 的 推 殴 ， 这 里 只 是 对 上 面 概 插 的 文 持 服务 模型 涉及 的 各 个 
部 分 做 一 个 总 体 的 讨论 。 | | 

首先 ， 尽 力 而 为 服务 只 能 告诉 网 络 我 们 想 让 分 组 去 哪里 并 把 它 留 在 那里 ， 而 实时 服务 
更 多 的 是 告诉 网 络 一 些 关 于 我 们 所 要 求 服务 的 类 型 信息 。 我 们 可 以 给 它 定 性 信息 ， 如 “使 
用 受 控 负 载 服务 ”， 或 定量 信息 ， 如 “我 需要 的 最 大 延迟 为 100ms”。 除 了 描述 我 们 想 要 的 
服务 类 型 ， 还 需要 告诉 网 络 我 们 打算 将 什么 注入 网 络 ， 因 为 低 带 宽 应 用 比 高 带宽 应 用 需要 
更 少 的 网 络 资源 。 我 们 提供 给 网 络 的 信息 的 集合 称 为 流 说 明 (flowspec) 。 这 个 名 字 来 目 于 
这 样 的 想法 ， 与 单一 的 应 用 相 联 系 的 并 具备 共同 需求 的 分 组 集合 称 为 流 (flow)， 这 与 6.1 
节 中 所 用 的 术语 相 一 致 。 

第 二 ， 当 我 们 请 求 网 络 提供 一 个 特殊 的 服务 时 ， 网 络 需要 判断 实际 上 它 是 否 能 够 提供 
该 服务 。 例 如 ， 如 果 10 个 用 户 请 求 一 个 服务 ， 其 中 每 个 用 户 将 持续 使 用 2Mbps 的 链 路 容 
量 ， 而 且 所 有 用 户 都 共享 一 条 10Mbps 容量 的 链 路 ， 那 么 网 络 就 不 得 不 拒绝 某 些 用 户 。 决 
定 何 时 拒绝 的 进程 称 为 容许 控制 Cadmission control), 。 

第 三 ， 我 们 需要 一 种 机 制 ， 通 过 这 种 机 制 网 络 用 户 与 网 络 自 身 的 组 件 之 间 互 相交 换 信 
息 ， 如 请 求 服务 、 流 说 明和 容许 控制 的 决定 。 这 在 ATM 中 称 为 信 令 (signalling), {AA 
于 这 个 词 有 多 种 含义 ， 我 们 称 这 个 进程 为 资源 预定 (resource reservation) ， 通 过 资源 预定 





协议 来 完成 。 | | 

最 后 ， 当 已 经 描述 流 和 它们 的 需求 并 且 也 做 出 了 容许 控制 的 决定 时 ， 网 络 交换 机 和 路 
由 器 需要 满足 流 的 需求 。 对 于 在 交换 机 和 路 由 器 中 的 传输 ， 满 足 这 些 需 求 的 关键 部 分 是 管 
理 分 组 排队 和 调度 的 方式 。 这 个 最 后 的 机 制 是 分 组 调度 (packet scheduling). 

3. 流 说 明 | | 

可 将 流 说 明 分 为 两 个 部 分 ， 描 述 流 的 通信 量 特性 的 部 分 (TSpec) 和 描述 向 网 络 要 求 
的 服务 部 分 (RSpec)。RSpec 是 一 种 特有 的 服务 ， 并 且 相 对 来 说 容易 描述 。 例 如 ， 对 于 受 
控 负 载 服务 ，RSpec 是 很 平常 的 ， 应 用 程序 要 求 受 控 负载 服务 时 只 要 求 不 附加 参数 。 对 于 
有 保证 的 服务 ， 你 能 够 指定 延迟 目标 或 界限 。 (在 IETF 有 保证 的 服务 的 规范 中 ， 你 指定 
的 不 是 延迟 而 是 另 一 个 用 来 计算 延迟 的 量 。) 

TSpec 要 复杂 一 些 。 正 如 上 面 的 例子 所 表明 的 ， 需 要 给 网 络 提供 关于 流 所 使 用 的 带宽 
的 足够 信息 ， 以 允许 做 出 智能 的 容许 控制 决定 。 然 而 ， 对 于 大 部 分 应 用 ， 带 宽 不 仅仅 是 一 
个 数字 ， 它 是 一 个 不 断 变化 的 东西 。 例 如 ， 一 个 视频 应 用 在 场景 快速 变化 时 比 静 止 时 每 秒 
产生 更 多 的 比特 。 下 面 的 例子 表明 ， 只 知道 长 期 平均 带宽 是 不 够 的 。 假 设 我 们 有 10 个 流 
到 达 独 立 输入 端口 上 的 交换 机 且 都 留 在 同一 个 10Mbps 链 路 上 。 假 设 经 过 某 一 合适 的 时 间 
间隔 ， 每 个 流 预期 能 够 发 送 不 超过 1Mbps 的 数据 。 你 可 能 以 为 这 没有 出 现 问题 。 然 而 ， 
如 果 这 些 是 像 压 缩 视 频 这 样 的 可 变 比特 速率 的 应 用 ， 那 么 它们 的 发 送 速 率 偶 尔 会 高 于 平均 
速率 。 如 果 足 够 的 源 端 以 高 于 它们 的 平均 速率 发 送 ， 那 么 数据 到 达 交 换 机 的 总 速率 将 大 于 
10Mbps。 这 种 额外 的 数据 在 发 送 到 链 路 上 之 前 会 被 放 在 队列 中 。 这 种 情况 持续 越久 ， 队 
列 就 会 越 长 。 分 组 可 能 不 得 不 被 丢弃 ， 而 且 即 便 没 有 分 组 丢弃 ， 位 于 队列 中 的 数据 也 会 延 
迟 。 如 果 分 组 被 延迟 的 时 间 足 够 长 ， 那 么 将 不 能 提供 所 请 求 的 服务 。 

下 面 我 们 讨论 的 是 如 何 准确 地 管理 队列 ， 以 控制 延迟 和 避免 丢弃 分 组 。 然 而 ， 这 里 要 
注意 ， 我 们 需要 知道 源 端的 带宽 怎样 随 着 时 间 而 改变 。 一 种 描述 源 端 带宽 特性 的 方法 称 为 
令 牌 桶 (token bucket) 过 滤器 。 这 种 过 滤 需 由 两 个 参数 摘 述 : 令 牌 速率 r 和 桶 深度 B， 
它 的 工作 过 程 如 下 。 为 了 能 够 发 送 一 个 字 节 ， 必 须 有 一 个 令 牌 。 为 了 发 送 长 度 为 n 的 分 
组 ， 就 需要 ?个 令 牌 。 开 始 没有 令 牌 ， 然 后 以 每 秒 ~ 的 速度 累积 令 牌 ， 且 累积 的 令 牌 不 超 
过 B 个 。 这 意味 着 ,能 够 以 尽 可 能 快 的 速度 向 网 络 连 续 发 送 B 个 字 节 ,但 是 经 过 足够 长 
的 时 间 间 隔 ， 每 秒 发 送 的 字 节 就 不 能 超过 个。 结果 表明 ， 当 试图 指出 它 是 否 能 接纳 一 个 
新 的 服务 请 求 时 ， 这 个 信息 对 于 容许 控制 算法 是 非常 有 帮助 的 。 

图 6-24 说 明了 令 牌 桶 怎样 刻画 流 的 带宽 需求 。 为 简单 
” 起见， 假设 每 个 流 能 够 按 单独 的 字 节 而 不 是 按 分 组 发 送 数 
据 。 流 A 以 1MBps 的 稳定 速率 产生 数据 ， 因 此 可 以 用 速 OS 
率 r 二 1MBps 和 桶 深 为 1 字 节 的 令 牌 桶 过 滤器 来 描述 它 。 Ê 
这 意味 着 流 A 以 1MBps 的 速率 接收 令 牌 , 但 它 存储 的 令 如 
牌 不 能 多 于 1 个 一 一 它 立 即将 它们 用 掉 。 流 B 也 长 期 以 平 埠 
均 1MBps 的 速率 发 送 ， 但 它 是 以 0. SMBps 的 速率 发 送 2s, me —_—, i i 
然后 以 2MBps 的 速率 发 送 1s。 因 为 令 牌 桶 速率 > 在 某 种 意 1 2 3 
义 上 是 一 个 长 期 的 平均 速率 ， 所 以 流 B 能 够 用 速率 为 2 
1MBps 的 令 牌 桶 来 描述 。 然 而 ， 与 流 AnA, ABEDE 图 6-24 具有 相同 平均 速率 和 不 同 
要 IMB 的 桶 深 B, EEEL 2MBps 发 送 时 能 够 使 用 以 小 令 牌 桶 描述 的 两 个 流 
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于 IMBps 的 速率 发 送 时 储存 起 来 的 令 牌 。 在 本 例 中 的 前 28， 它 以 1MBps 的 速率 接收 令 牌 ， 
但 却 仅仅 以 0. SMBps 的 速率 来 消耗 ， 所 以 它 能 够 储存 2X0. 5= 1MB 的 令 牌 ， 然 后 在 第 三 秒 
以 2MBps 的 速率 发 送 时 消耗 它们 (以 及 在 这 1s 中 继续 增加 的 新 令 牌 )。 第 三 秒 结束 时 ， 它 已 
经 消耗 了 额外 的 令 牌 ， 又 以 0. SMBps 的 速率 发 送 ， 再 次 开始 储存 邻 牌 。 

”值得 注意 的 是 单个 流 能 够 用 许多 不 同 的 令 牌 桶 描述 。 作 为 一 个 小 例子 ， 流 A 能 够 用 与 
流 B 相同 的 令 牌 桶 描述 ， 桶 B 具有 1MBps 的 速率 和 1MB 的 桶 深 。 它 实际 上 从 不 需要 累积 
令 牌 ， 这 一 事实 并 没有 使 它 成 为 一 个 不 准确 的 描述 ， 但 这 确实 意味 着 我 们 没有 向 网 络 传达 
一 些 有 用 的 信息 一 一 实际 上 流 A 与 它 的 带宽 需求 高 度 一 致 。 总 的 来 说 ， 应 用 的 带宽 需求 越 
清楚 越 好 ， 这 样 可 以 防止 网 络 资源 的 过 度 分 配 。 

4. 容许 控制 

容许 控制 的 思想 很 简单 ， 假设 给 定 当前 的 可 用 资源 ， 当 某 个 新 的 流 想 要 接收 一 个 特殊 
级 别 的 服务 时 ， 容 许 控制 查看 流 的 TSpec 和 RSpec， 并 试图 确定 所 要 求 的 服务 是 否 能 得 到 
所 需 数量 的 通信 量 ， 在 当前 可 利用 的 资源 条 件 下 ， 不 会 使 任何 前 面 被 容许 的 流 接 收 到 比 它 
所 要 求 的 更 差 的 服务 。 如 果 它 能 够 提供 服务 ， 则 流 被 容许 ; 否则 被 拒绝 。 难 点 在 于 指出 何 
时 说 是 ， 何 时 说 否 。 

容许 控制 完全 依赖 于 请 求 服务 的 类 型 和 路 由 器 中 使 用 的 排队 规则 ， 在 本 节 的 后 面 将 讨 
论 后 一 个 问题 。 对 于 有 保证 的 服务 ， 你 需要 用 一 个 好 算法 做 出 明确 的 是 / 否 容许 的 决定 。 
如 果 每 台 路 由 器 都 使 用 6. 2 节 讨 论 的 加 权 公 平 排队 法 ， 决 定 将 是 相当 容易 的 。 对 于 受 控 负 
载 服务 ， 决 定 可 能 基于 试探 法 ， 例 如 “上 次 我 允许 带 有 这 一 TSpec 的 流 进 入 这 个 类 ， 该 类 
的 延迟 超出 了 可 接受 的 界限 ， 所 以 我 最 好 说 否 ”或 者 “我 当前 的 延迟 离 界限 还 很 远 ， 我 容 
许 另 一 个 流 应 该 不 会 有 困难 ”。 

容许 控制 不 应 该 与 策略 制定 (policing) 相 混淆。 前 者 是 对 每 个 新 的 流 做 出 的 是 否 容 
许 的 决定 。 后 者 是 应 用 在 每 一 个 分 组 基础 上 的 功能 ， 保 证 一 个 流 与 用 于 实现 预定 的 TSpec 
相 一 致 。 如 果 一 个 流 与 它 的 TSpec 不 一 致 一 一 例如 ， 它 每 秒 发 送 的 字 节 是 它 所 说 要 发 送 字 
节 的 两 倍 一 一 那么 ， 这 很 可 能 干扰 向 其 他 流 提供 的 服务 ， 而 且 必 须 进行 改正 。 有 多 种 改正 
方式 ， 显然 可 以 丢弃 违规 的 分 组 。 然 而 ， 另 一 种 方式 是 检验 分 组 是 否 真 的 干扰 其 他 流 的 服 
务 。 如 果 它 们 不 干扰 ， 就 将 分 组 加 标记 后 继续 发 送 ， 标 记 为 “这 是 一 个 不 一 致 的 分 组 ， 如 
果 你 需要 丢弃 分 组 ， 先 丢弃 它 。” | | 

容许 控制 与 策略 (policy) 这 一 重要 问题 密切 相关 。 例 如 ， 网 络 管理 员 可 能 希望 允许 
其 公司 的 首席 执行 官 所 做 的 预定 被 接纳 ， 而 下 层 雇员 所 做 的 预定 被 拒绝 。 当 然 ， 如 果 首 席 
执行 官 请 求 的 资源 不 可 用 ， 那 么 他 的 预定 请 求 也 可 能 失败 ， 所 以 我 们 看 出 ， 当 做 出 容许 控 
制 的 决定 时 ， 规 则 和 资源 可 用 性 问题 可 能 都 是 需要 考虑 的 。 在 写本 书 时 ， 互 联网 技术 中 策 
略 的 应 用 正成 为 一 个 备 受 关注 的 领域 。 | 

5. 预定 协议 

虽然 面向 连接 的 网 络 总 需要 某 种 创建 协议 以 便 在 交换 机 中 建立 必要 的 虚 电 路 状态 ， 但 
是 像 因特网 这 种 无 连接 的 网 络 就 没有 这 种 协议 。 然 而 ， 正 如 本 节 所 指出 的 ， 当 我 们 想 从 网 
络 中 获得 实时 服务 时 ， 我 们 需要 向 它 提供 更 多 的 信息 。 尽 管 已 经 为 因特网 提出 了 大 量 的 创 
建 协议 ， 但 当前 最 受 关注 的 是 RSVP。 它 格外 吸引 人 ， 因 为 它 与 传统 的 面向 连接 网 络 的 信 
令 协议 本 质 上 截然 不 同 。 
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基础 RSVP 的 一 个 关键 假设 是 ， 它 不 应 该 损害 在 当今 无 连接 网 络 的 健壮 性 。 因 为 无 连 
接 的 网 络 很 少 或 不 依赖 于 网 络 本 身 存储 的 状态 ， 所 以 在 端 到 端的 连接 依然 保持 的 情况 下 ， 


”路 由 器 遂 省 或 重启 以 及 链 路 通 或 断 都 是 可 能 的 。RSVP 试图 通过 在 路 由 妖 中 使 用 软 状 态 


(soft state) 的 思想 来 维持 这 种 健壮 性 。 当 不 再 需要 软 状态 〈 相 对 于 面向 连接 网 络 中 的 硬 
状态 ) 时 ， 不 需要 明确 地 删除 它们 。 相 反 ， 如 果 它 没有 被 周期 性 刷新 ， 那 么 就 会 在 某 个 相 
当 短 的 时 间 〈 如 1 分钟 ) 后 超时 。 我 们 将 在 后 面 看 到 这 怎样 有 助 于 健壮 性 。 

RSVP 的 另 一 个 重要 特性 是 支持 多 播 流 ， 使 其 像 单 播 流 一 样 有 效 。 这 并 不 奇怪 ， 因 为 
多 播 应 用 (如 vat 和 vic) 显然 是 较 早 受益 于 实时 服务 的 应 用 。RSVP 设计 者 观察 到 多 播 应 
用 的 接收 方 比 发 送 方 多 得 多 ， 典 型 的 例子 是 只 有 一 个 讲演 者 和 大 量 听众 的 演讲 。 并 且 ， 接 
收 方 可 能 有 不 同 的 需求 。 例 如 ， 一 个 接收 方 可 能 想 要 接收 仅 来 自 一 个 发 送 方 的 数据 ， 而 其 
他 接收 方 可 能 想 接收 来 自 所 有 发 送 方 的 数据 。 与 其 让 发 送 方 记录 潜在 的 大 量 接 收 方 ， 不 如 
让 接收 方 记 录 它 们 自己 的 需要 更 有 意义 。 这 就 意味 着 RSVP 采用 面向 接收 Creceiver-ori- 
ented) 的 方法 。 与 之 相反 ， 面 向 连接 的 网 络 通常 将 资源 预定 留 给 发 送 方 ， 正 如 在 电话 网 
中 ,一 般 情况 下 是 由 打 电 话 的 人 引发 资源 分 配 的 。 

RSVP 的 软 状 态 和 面向 接收 的 性 质 给 予 它 许 多 良好 的 特性 ， 特 性 之 一 是 非常 直接 地 增 
加 或 减少 提供 给 接收 方 的 资源 分 配 级 别 。 由 于 每 个 接收 方 定期 发 送 刷 新 消息 以 保持 相称 的 
软 状 态 ， 所 以 很 容易 发 送 一 个 请 求 新 级 别 资源 的 新 的 预定 。 此 外 ， 软 状态 可 以 从 容 地 人 处理 
网 络 或 节点 的 潜在 故障 。 万 一 主机 册 演 ， 主 机 分 配给 一 个 流 的 资源 会 自然 地 超时 并 释放 ，。 
为 了 看 出 在 路 由 器 或 链 路 失败 时 会 发 生 什 么 ， 我 们 需要 仔细 研究 进行 预定 的 机 制 。 

首先 ， 考 虑 一 个 发 送 方 和 一 个 接收 方 试图 为 它们 之 间 的 通信 和 量 获得 预定 的 情况 。 在 接 
收 方 能 够 进行 预定 之 前 需要 发 生 两 件 事 。 第 一 ， 接 收 方 需要 知道 发 送 方 可 能 发 送 的 通信 
量 ， 以 便 能 够 进行 相应 的 预定 。 即 它 需 要 知道 发 送 方 的 TSpec。 第 二 ， 它 需要 知道 分 组 从 
发 送 方 到 接收 方 遵循 什么 路 径 ， 以 便 能 在 路 径 上 的 每 台 路 由 器 建立 一 个 资源 预定 。 可 以 通 
过 从 发 送 方向 包含 TSpec 的 接收 方 发 送 一 条 消息 来 满足 这 两 个 需求 。 显 然 ， 这 将 TSpec 给 
了 接收 方 。 所 发 生 的 男 一 件 事 是 当 这 条 消息 〈 称 为 PATH 消息 ) 通过 时 ， 每 台 路 由 器 查看 
它 ， 并 确定 反 向 路 径 (reverse path)， 用 于 在 尝试 获得 路 径 中 每 台 路 由 和 侣 预定 的 过 程 中 ， 发 
送 从 接收 方 返 回 给 发 送 方 的 预定 。 建 立 多 播 树 首先 是 通过 在 4. 2 节 中 描述 的 机 制 实现 的 。 

收 到 PATH 消 恩 后 ， 接 收 方 对 RESV 消息 中 的 多 播 树 向 上 发 回 一 个 预定 。 这 条 消息 
包含 发 送 方 的 TSpec 和 描述 接收 方 请 求 的 RSpec。 路 径 上 的 每 台 路 由 器 查看 预定 请 求 并 分 
配 必要 的 资源 来 满足 它 。 如 果 可 以 做 预定 ， 那 么 RESV 请 求 被 传 给 下 一 台 路 由 器 。 如 果 不 
能 ， 则 向 发 出 请 求 的 接收 方 返回 一 个 出 错 消 息 。 如 果 一 切 正常 ， 那 么 就 在 发 送 方 和 接收 方 
之 间 的 每 台 路 由 器 上 安装 了 正确 的 预定 。 只 要 接收 方 想 保留 预定 ， 它 就 大 约 每 30s 发 送 一 
次 相同 的 RESV 消息 。 | 

现在 我 们 可 以 看 看 当 路 由 器 或 链 路 失败 时 会 发 生 什 么 。 路 由 选择 协议 将 适应 这 种 失败 
并 生成 一 条 从 发 送 方 到 接收 方 的 新 路 径 。PATH 消息 大 约 每 30s 发 送 一 次 ， 如 果 路 由 器 在 
它 的 转发 表 中 检测 到 有 变化 发 生 ， 可 能 还 会 更 快 地 发 送 一 个 PATH 消息 ， 因 此 新 路 由 稳 
定 后 的 第 一 个 PATH 消息 将 通过 新 路 径 到 达 接 收 方 。 接 收 方 的 下 一 个 RESV 消息 将 遵循 
新 的 路 径 ， 如 果 一 切 顺 利 ， 接 着 在 新 的 路 径 上 建立 新 的 预定 。 同 时 ,不 在 新 路 径 上 的 路 由 
ark? fe ILI RESV 消息 ， 并 且 它 们 的 预定 将 超时 并 释放 。 这 样 只 要 路 由 变化 不 过 于 频 
2, RSVP 就 能 很 好 地 处 理 拓扑 结构 中 的 变化 。 
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我 们 需要 考虑 的 下 一 件 事 是 怎样 处 理 多 播 ， 其 中 可 能 有 多 个 发 送 方 组 成 一 个 组 并 有 多 
个 接收 方 。 图 6-25 说 明了 这 种 情况 。 首 先 ， 让 我 们 处 理 对 一 个 发 送 方 的 多 个 接收 方 。 当 
一 个 RESV 消息 对 多 播 树 向 上 传 时 ， 很 可 能 碰 上 树 的 一 个 其 他 接收 方 已 经 建立 的 预定 。 可 
能 有 这 样 的 情况 ， 这 一 点 的 上 游 所 预定 的 资源 足以 为 这 两 个 接收 方 服务 。 例 如 ， 如 果 接 收 
方 A 已 经 为 小 于 100ms 的 有 保证 的 延迟 进行 了 预定 ， 并 且 来 自 接收 方 B 的 新 的 请 求 是 小 
于 200ms 的 延 人 运 ， 那 么 就 不 需要 新 的 预定 。 男 一 方面 ， 如 果 新 的 请 求 是 小 于 50ms 的 延 
IR, 那么 路 由 融 将 首先 需要 看 一 看 它 是 否 能 够 接受 这 个 请 求 ， 如 果 能 ， 则 再 向 上 游 发 送 请 
求 。 下 次 接收 方 A 请 求 最 小 值 为 100ms 的 延迟 ， 路 由 器 就 不 需要 传递 这 个 请 求 。 一 般 说 
来 ， 可 以 以 这 种 方式 合并 预定 以 满足 合并 点 下 游 的 所 有 接收 方 的 需要 。 
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F 
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图 6-25 ”在 一 个 多 播 树 上 进行 预定 


如 果树 上 还 有 多 个 发 送 方 ， 那 么 接收 方 需要 收集 所 有 发 送 方 的 TSpec， 并 进行 足够 大 
的 预 留 以 容纳 所 有 发 送 方 的 通信 量 。 然 而 ， 这 可 能 并 不 意味 着 需要 把 TSpec 累加 起 来 。 例 
如 ， 在 一 个 10 人 的 音频 会 议 中 ， 并 不 是 多 点 分 配 足 够 资源 来 传送 10 个 音频 流 ， 因 为 10 
个 人 同时 讲话 的 结果 是 不 能 理解 的 。 这 样 ， 我 们 能 够 设想 一 个 足以 容纳 最 多 两 个 讲话 者 的 
预定 。 从 所 有 发 送 方 的 TSpec 计算 出 正确 的 总 的 TSpec， 显 然 要 根据 具体 应 用 而 有 所 不 
同 。 而 且 ， 我 们 可 能 只 有 兴趣 听 到 所 有 可 能 讲话 者 中 一 部 分 人 的 话 。RSVP 在 处 理 下 列 选 
项 时 有 不 同 的 预定 “风格 ”: “为 所 有 讲话 者 预定 资源 ”，“ 为 任意 n 个 讲话 者 预定 资源 ”， 
“只 为 讲话 者 A 和 B 预定 资源 ”。 

6. 分 组 的 分 类 和 调度 

一 旦 我 们 已 经 描述 了 通信 和 量 和 想 要 的 网 络 服务 并 且 为 路 径 上 的 所 有 路 由 器 安装 了 合适 
的 预定 ， 路 由 器 便 只 剩 下 一 件 工作 向 数据 分 组 实际 提供 所 要 求 的 服务 。 其 中 需要 做 两 
部 分 工作 : ` 

。 将 每 个 分 组 与 适当 的 预定 相关 联 以 便 正确 处 理 它 ， 这 个 进程 称 为 分 类 (classifying) 分 组 。 

。 管理 队列 中 的 分 组 以 便 它们 能 接收 所 要 求 的 服务 ， 这 个 进程 称 为 分 组 调度 (scheduling) . 

第 一 部 分 是 通过 检查 分 组 中 的 最 多 5 个 字段 ( 源 地 址 、 目 的 地 址 、 协 议 号 、 源 端口 和 
目的 端口 ) 进行 的 。( 在 IPv6 中 ， 分 组 首部 中 的 FlowLabel 字段 可 能 用 于 根据 一 个 较 短 关 




















键 字 进 行 查找 。.) 根据 该 信息 ， 能 够 将 分 组 放 在 适当 的 类 中 。 例 如 ， 它 可 能 被 归 类 到 受 控 
负载 的 各 个 类 中 ， 或 者 可 能 是 需要 独立 于 所 有 其 他 有 保证 的 流 而 单独 处 理 的 有 保证 流 的 一 
部 分 。 简 而 言 之 ， 存 在 一 个 从 分 组 首部 中 流 说 明 信 息 到 一 个 确定 如 何在 队列 中 处 理 分 组 的 
类 标识 符 的 上 映射。 对 于 有 保证 的 流 ， 这 可 能 是 一 个 一 对 一 的 映射 ， 而 对 于 其 他 服务 ， 它 可 
能 是 多 对 一 的 映射 。 分 类 的 细节 与 队列 管理 细节 紧密 相关 。 

应 该 明确 ， 路 由 器 中 像 FIFO 队列 这 样 简单 的 排队 机 制 不 足以 提供 许多 不 同 的 服务 和 
每 个 服务 中 不 同 级 别 的 延迟 。6. 2 节 讨 论 了 几 个 更 复杂 的 队列 管理 规则 ， 而 且 它 们 的 某 种 
组 合 很 可 能 用 在 路 由 器 中 。 — 

理想 状况 下 ， 分 组 调度 的 细节 不 应 该 在 服务 模型 中 说 明 。 相 反 ， 这 是 实现 者 能 够 尝试 
进行 创造 性 活动 以 有 效 实现 服务 模型 的 一 个 领域 。 在 有 保证 服务 的 情况 下 ,已 经 可 以 使 加 
权 公平 排队 规则 〈 其 中 共享 链 路 一 定 份额 的 每 个 流 都 有 自己 单独 的 队列 ) 提供 一 个 容易 计 
算 的 有 保证 的 端 到 端 延迟 界限 。 对 于 受 控 负 载 ， 可 以 使 用 更 简单 的 方案 。 一 种 可 能 性 包 
括 : 把 所 有 受 控 负 载 通信 量 看 作 单个 聚集 的 流 〈 就 涉及 的 调度 机 制 而 论 ) ， 该 流 的 权 值 可 
以 根据 可 控 负 载 中 允许 的 通信 和 总 量 来 设置 。 如 果 你 在 一 台 路 由 器 中 考虑 它 ， 这 个 问题 就 更 
困难 ， 许 多 不 同 的 服务 很 可 能 以 并 发 的 方式 提供 ， 这 些 服务 的 每 一 个 服务 都 可 能 需要 一 个 
不 同 的 调度 算法 。 这 样 ， 需 要 用 某 个 综合 的 队列 调度 算法 管理 不 同 服务 之 间 的 资源 。 
































RSVP 和 综合 服务 配置 

在 本 书写 作 时 ，RSVP 和 综合 服务 体系 结构 并 没有 被 广泛 配置 ， 其 主要 原因 是 本 节 来 
所 描述 的 可 扩展 性 问题 。 实 际 上 ， 它 被 认为 是 一 种 “ 死 ” 的 技术 。 然 而 ， 认 为 RSVP MH 
” 合 服 务 已 经 死亡 却 为 时 过 早 。 

与 IntServ 分 离开 ， 作 为 一 个 为 流量 工程 (正如 4.3 节 中 的 描述 ) 建立 MPLS 路 径 的 
协议 ，RSVP 已 经 被 广泛 配置 了 。 由 于 该 原因 ， 因 特 网 中 的 大 多 数 路 由 器 有 一 些 RSVP 实 
现 。 然 而 ， 这 可 能 是 在 本 书写 作 时 因特网 中 RSVP 配置 的 全 部 内 容 。 对 RSVP 的 这 种 使 用 
方式 完全 独立 于 IntServ， 但 它 至 少 说 明 协 议 本 身 是 可 配置 的 。 | 

有 证 据 表 明 RSVP 和 IntServ 在 它们 首次 提出 后 10 年 多 的 时 间 里 可 能 得 到 一 次 新 的 广 
泛 应 用 的 机 会 。 例 如 ，IETEF 正在 对 RSVP 进行 标准 化 扩展 ， 以 便 使 其 支持 集合 预定 一 一 
在 过 去 RSVP 和 Intserv 的 扩展 性 已 经 提升 了 。 在 商业 产品 中 RSVP 作为 一 个 资源 预定 协 
议 正 在 逐渐 得 到 支持 。 

多 种 因素 会 导致 RSVP 和 IntServ 在 不 久 的 将 来 被 更 多 地 采纳 。 首 先 ， 需 要 QoS 的 应 
用 ， 例 如 IP 上 的 语音 、 实 时 视频 会 议和 娱乐 视频 ， 比 10 年 前 要 广泛 得 多 ， 因 此 就 更 需要 
复杂 的 QoS 机 制 。 第 二 ， 容 许 控制 一 -使 得 当 资 源 不 足 时 网 络 能 够 对 应 用 程序 说 
“不 ”一 一 对 于 除非 资源 足够 否则 不 能 很 好 运行 的 应 用 程序 来 说 是 一 个 好 的 机 制 。 例 如 ， 
大 部 分 IP 电话 用 户 宁 可 听 到 忙 信号 ， 也 不 愿意 进行 无 法 接受 的 坏 质 量 的 呼叫 。 网 络 操作 
者 宁可 给 一 个 用 户 发 送 一 个 忙 信号 ， 也 不 愿意 给 大 量 用 户 提 供 差 的 质量 。 第 三 个 因素 是 新 
应 用 程序 的 大 量 资 源 需求 ， 例 如 高 精度 的 视频 传输 ， 因 为 它们 需要 高 带宽 才能 工作 好 ， 因 
此 去 建立 偶尔 能 说 “不 ”的 网 络 比 提供 足够 带宽 去 满足 所 有 可 能 的 应 用 需求 具有 更 高 的 性 
价 比 。 然 而 这 是 一 个 复杂 的 平衡 ， 关 于 容许 控制 的 价值 ， 以 及 将 RSVP 和 IntServ 作为 工 
具 来 提供 的 争论 可 能 会 持续 一 些 时 间 。 
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7. 可 扩展 性 问题 

虽然 综合 服务 体系 结构 和 RSVP 象征 着 IP 的 尽力 而 为 服务 模型 的 重大 发 展 ， 但 是 因 
等 网 服务 提供 商 们 党 得 这 并 不 是 他 们 想 要 采用 的 正确 模型 。 这 种 保留 和 IP 基本 的 设计 目 
的 之 一 《 即 可 扩展 性 ) 有 关 。 在 尽力 而 为 服务 模型 中 ， 因 特 网 中 的 路 由 器 几乎 或 根本 不 存 
储 任何 流 经 它们 的 各 个 流 的 状态 。 这 样 ， 随 着 因特网 的 增长 ， 路 由 器 要 跟 上 这 种 增长 所 需 
做 的 唯一 事情 就 是 每 秒 传送 更 多 的 比特 和 处 理 更 大 的 路 由 表 。 但 是 RSVP 增 大 通过 路 由 器 
的 每 个 流 要 做 相应 预定 的 可 能 性 。 为 了 理解 这 个 问题 的 严重 性 ， 假 设 在 一 条 OC- 48 
(2. 5Gbps) 的 链 路 上 的 每 个 流 都 是 64kbps 的 音频 流 。 这 样 的 流 的 数量 为 

2.5X109/64X 103 =39 000 

这 些 预定 中 的 每 一 个 都 需要 某 个 量 的 状态 ， 这 些 状态 存储 在 内 存 中 ， 并 且 定 时 刷新 。 
路 由 融 需 要 对 其 中 的 每 个 流 进行 分 类 、 控 制 和 排队 。 每 当 这 样 的 流 请 求 一 个 预定 时 ， 就 需 
要 做 一 次 容许 控制 决定 。 而 且 需 要 一 些 “拒绝 ”用 户 的 机 制 ， 使 他 们 不 能 做 长 时 间 的 任意 
大 的 预定 .9 i | 

在 写本 书 时 ， 可 扩展 性 涉及 的 这 些 问题 已 经 阻碍 了 综合 服务 的 广泛 采用 。 由 于 这 些 问 
题 ， 人 们 已 经 开发 了 不 需要 做 这 么 多 “每 个 流 ” 状 态 的 其 他 方法 。 下 一 节 将 讨论 一 些 这 样 
的 方法 。 











6.5.3 区 分 服务 (EF. AF)® 


综合 服务 休 系 结构 给 单独 的 流 分 配 资源 ， 而 区 分 服务 模型 (常常 简称 为 DiffServ) 给 
少数 几 类 通信 和 量 分 配 资源 。 实 际 上 ， 已 经 提出 的 几 个 区 分 服务 方法 简单 地 把 通信 量 分 为 两 
类 。 这 是 一 个 非常 明智 的 方法 :如 果 你 考虑 一 下 网 络 操 作 员 在 试图 保持 尽力 而 为 服务 在 互 
联网 平稳 运行 方面 的 困难 ， 那 么 在 服务 模型 上 做 少量 增加 是 有 意义 的 。 

假设 我 们 决定 通过 仅 增加 一 个 称 之 为 “加 价 ”的 新 类 来 改进 尽力 而 为 服务 模型 。 显 
然 ， 我 们 需要 一 些 方法 指出 哪些 分 组 是 加 价 分 组 ， 哪 些 分 组 是 常规 的 尽力 而 为 服务 类 型 。 
与 其 让 RSVP 这 样 的 协议 来 告诉 所 有 路 由 器 某 一 个 流 正在 发 送 加 价 分 组 ， 不 如 只 让 这 些 分 
组 在 到 达 时 向 路 由 器 表明 身份 ， 这 样 要 简单 得 多 。 当 然 ， 通 过 使 用 分 组 首部 的 1 位 就 可 以 
做 到 ， 如 果 这 一 位 设置 为 1， 表示 分 组 是 加 价 分 组 ;如 果 为 0， 表 示 分 组 是 尽力 而 为 服务 
类 型 。 记 住 这 一 点 ,需要 解决 两 个 问题 ， 

。 谁 设置 加 价位 ?在 什么 环境 下 设置 ? 

。 当 路 由 器 看 到 设置 该 位 的 分 组 时 ， 做 哪些 不 同 的 处 理 ? : 

对 第 一 个 问题 有 许多 可 能 的 回答 ， 但 最 常用 的 方法 是 在 管理 的 边界 设置 这 一 位 。 例 
如 ， 在 一 个 因特网 服务 提供 商 的 网 络 边缘 的 路 由 器 可 能 对 与 某 一 特定 公司 网 络 相连 的 接口 
上 到 达 的 分 组 设置 这 一 位 。 因 特 网 服务 提供 商 可 能 这 样 做 是 因为 ， 这 个 公司 已 经 为 比 尽力 
而 为 服务 更 高 级 别 的 服务 付费 。 也 可 能 并 不 是 所 有 分 组 都 被 标识 为 加 价 ， 例 如 ， 可 以 配置 
路 由 器 ， 让 其 将 分 组 标识 为 加 价 直至 某 一 最 大 速度 ， 同 时 使 所 有 额外 分 组 都 保持 尽力 而 为 
服务 。 








( 


日 ”为 每 个 预定 付费 是 “拒绝 ”用 户 的 一 种 方法 ， 这 与 针对 每 次 呼叫 来 付费 的 电话 模型 是 类 型 的 。 这 不 是 “拒绝 ” 
用 户 的 唯一 方法 ， 为 每 个 呼叫 付费 是 电话 网 络 中 的 主要 计 费 方式 。 
© 参见 “实验 附录 B”. 


假设 分 组 已 经 用 某 种 方法 进行 标识 ， 那 么 路 由 器 将 如 何 处 理 遇 到 的 标识 过 的 分 组 ? 这 
里 又 有 很 多 答案 。 实 际 上 ，IETF 的 区 分 服务 工作 组 正在 对 一 系列 应 用 于 标识 分 组 的 路 由 
器 行为 进行 标准 化 。 它 们 被 称 为 每 跳 行 为 (Per-Hop Behaviors，PHB)， 这 个 术语 表明 它 
定义 的 是 单 台 路 由 器 的 行为 而 不 是 端 到 端 服务 的 行为 。 因 为 新 行为 不 止 一 个 ， 所 以 在 分 组 
首部 中 需要 不 止 一 位 来 告诉 路 由 器 用 哪个 行为 。IETF 已 经 决定 从 IP 首部 中 去 挥 还 未 广泛 
使 用 的 TOS 字 节 ， 并 重新 定义 它 。 这 个 字 节 中 的 6 位 已 分 配给 区 分 服务 代码 指针 (Diff- 
Serv Code Points，DSCP) ， 其 中 每 个 DSCP 是 一 个 6 位 的 值 ， 标 识 用 于 一 个 分 组 的 特定 
PHB, (ECN 使 用 其 余 2 位 ， 参 见 6. 4. 2 节 ,) 

1. MEEA (EF) PHB 

要 说 明 的 最 简单 的 PHB 之 一 是 加 速 转发 (Expedited Forwarding, EF). XER Ñ 
EF 分 组 的 处 理应 当 是 路 由 器 以 最 少 的 延迟 和 丢失 转发 。 使 路 由 右 能 向 所 有 EF 分 组 都 保 
证 这 点 的 唯一 方法 是 严格 限制 EF 分 组 到 达 路 由 器 的 速率 小 于 路 由 天 转发 EF 分 组 的 速 
率 。 例 如 ， 有 100Mbps 接口 的 路 由 器 需要 确保 目标 为 该 接口 的 EF 分 组 的 到 达 速 率 绝 不 超 
过 100Mbps。 可 能 还 需要 确保 这 个 速率 比 100Mbps 稍 低 一 些 ， 以 便 路 由 器 还 可 以 偶尔 有 
时 间 发 送 其 他 分 组 〈 如 路 由 更 新 )。 

通过 在 管理 域 的 边界 上 配置 路 由 器 ， 容 许 进 入 域 中 的 EF 分 组 达到 茶 一 最 大 速率 ， 可 
以 获得 对 EF 分 组 的 速率 限制 。 一 个 虽然 保守 但 简单 的 方法 是 ， 确 保 进 入 域 中 的 所 有 EF 
分 组 的 速率 的 和 低 于 域 中 最 慢 链 路 的 带宽 。 这 就 能 确保 即使 在 最 糟 的 情况 下 (所 有 EF 分 
组 都 集中 在 最 低速 的 链 路 上 ) 也 不 会 超载 ， 同 时 能 提供 正确 的 行为 。 

对 于 EF 行为 ， 有 几 个 可 能 的 实现 策略 。 一 个 策略 就 是 给 EF 分 组 赋予 严格 高 于 其 他 
所 有 分 组 的 优先 级 。 另 一 个 策略 是 在 EF 分 组 和 其 他 分 组 之 间 执 行 加 权 平均 排队 ， 将 EF 
的 权 值 设置 得 足够 大 ， 使 所 有 EF 分 组 可 以 快速 传输 。 比 起 严格 的 优先 级 ， 这 种 方法 有 一 
个 优点 ， 即 使 在 EF 通信 量 过 多 的 情况 下 ， 仍 可 以 确保 非 EF 分 组 获得 一 定 的 链 路 访问 。 
这 可 能 意味 着 EF 分 组 不 能 准确 地 获得 指定 的 行为 ， 但 是 它 能 在 EF 通信 量 过 载 时 ， 防 止 
基本 的 路 由 通信 和 量 被 阻止 在 网 络 之 外 。 

2. 确保 转发 (AF) PHB 

确保 转发 (Assured Forwarding, AF) 基于 界 内 界外 RED CRED with In and Out, RIO) 
或 加 权 RED 方法 。 这 两 种 方法 是 对 6. 4. 2 节 中 基本 RED 算法 的 改进 。 图 6-26 显示 了 RIO 是 
如 何 工作 的 ， 和 图 6-17 一 样 ， 我 们 看 到 随 着 z PEX) 

轴 上 平均 队列 长 度 的 增加 ，y 轴 上 的 丢弃 概率 | 

也 增加 。 但 是 现在 ， 对 于 两 类 通信 量 ， 我 们 有 | 

两 条 单独 的 丢弃 概率 曲线 。 很 快 就 会 明白 ， 10- eee emer 
RIO 为 什么 称 这 两 类 为 “ 界 内 ”和 “界外 ”。 | : | 

因为 “界外 ”曲线 的 MinThreshold kh “AW” | | | 

WAS, ITAA TERRE, RE Map- E | 平均 队 











标志 “界外 ”的 分 组 被 RED BEER. WR ae ee ae 列 长 度 
拥塞 变 得 更 严重 ,将 有 更 多 的 “界外 ”分 组 被 Min,, Min, Max, Max, 
丢弃 ， 然 后 如 果 平 均 队 列 长 度 超过 Minin 时 ， 图 6-26 具有 “ 界 内 ”和 “界外 ” 


RED 就 开始 连 “ 界 内 ”分 组 也 丢弃 了 。 丢弃 概率 的 RED 
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之 所 以 称 两 类 分 组 为 “ 界 内 ”和 “界外 ”， 是 源 于 分 组 的 标识 方式 。 我 们 已 经 注意 到 ， 
标识 分 组 由 管理 域 边 缘 的 路 由 器 来 执行 。 可 以 把 这 人 台 路 由 器 看 作 是 在 网 络 服务 提供 商 和 该 
网 络 某 一 客户 之 间 的 边界 上 。 客 户 可 能 是 其 他 的 网 络 ， 例 如 ， 某 个 公司 的 网 络 或 是 另 一 个 
网 络 服务 提供 商 的 网 络 。 客 户 和 网 络 服务 提供 商 在 确保 服务 的 某 种 描述 问题 上 达成 一 至 
(或 许 是 客户 为 这 种 描述 向 网 络 服务 提供 商 付费 ) 。 这 个 描述 可 能 是 这 样 的 ; “SUPE X 
最 多 发 送 y Mbps 可 确保 的 通信 和 量 ”， 也 可 能 要 复杂 得 多 。 不 论 描 述 是 什么 ， 边 缘 路 由 器 都 
会 清楚 地 将 来 自 该 客户 的 分 组 标识 为 “ 界 内 描述 ”或 “界外 描述 ”。 在 上 面 提 到 的 例子 中 ， 
只 要 客户 的 发 送 速 率 低 于 y Mbps， 那 么 它 的 所 有 分 组 都 标识 为 “ 界 内 ”， 但 是 如 果 它 超过 
了 这 个 速率 ， 额 外 的 分 组 将 被 标识 为 “界外 ”。 

在 边缘 的 轮廓 仪 和 在 服务 提供 商 网 络 中 所 有 路 由 器 上 的 RIO 都 应 尽力 确保 (但 不 是 
保证 ) 客户 的 分 组 能 在 其 轮廓 下 传送 。 实 际 上 ， 如 果 大 部 分 分 组 是 “界外 ”分 组 的 话 (其 
中 包括 由 那些 没有 为 建立 描述 而 额外 付费 的 客户 发 送 的 分 组 )，RIO 机 制 会 尽量 保持 拥塞 
较 低 以 便 使 “ 界 内 ”分 组 很 少 被 丢弃 。 显 然 ， 必 须 有 足够 的 带宽 ， 使 得 单独 的 “ 界 内 ”分 
组 不 会 让 链 路 拥塞 到 RIO 开始 丢弃 “ 界 内 ”分 组 的 地 步 。 | 

和 RED —#£, RIO 这 种 机 制 的 有 效 性 一 定 程度 上 依赖 于 正确 的 参数 选择 ， 对 于 RIO 
来 说 ， 需 要 设置 更 多 的 参数 。 在 写本 书 时 ， 这 种 方案 在 现 有 的 网 络 中 如 何 工 作 还 是 一 个 存 
在 争议 的 问题 。 | 

RIO 的 一 个 重要 的 性 质 是 它 不 改变 “ 界 内 ”和 “界外 ”分 组 的 顺序 。 例 如 ， 如 果 一 个 
TCP 连接 正 将 分 组 送 给 一 个 轮 廊 仪 ， 于 是 一 些 分 组 被 标识 为 “ 界 内 ”， 而 另 一 些 分 组 被 标 
识 为 “界外 ”， 这 些 分 组 将 在 路 由 器 队列 中 获得 不 同 的 丢弃 概率 ， 但 它们 会 按 与 发 送 相同 
的 顺序 到 达 接 收 方 。 这 对 于 大 多 数 TCP 实现 都 很 重要 ， 尽 管 它们 能 处 理 无 序 到 达 的 分 组 ， 
但 是 当 分 组 按 序 到 达 时 ， 它 们 执行 起 来 要 好 得 多 。 还 要 注意 ， 当 分 组 到 达 顺 序 改 变 时 ， 像 
快速 重 传 这 样 的 机 制 可 能 会 被 错误 地 触发 。 

可 以 推广 RIO 思想 使 它 提供 两 条 以 上 的 委 弃 概率 曲线 ， 这 种 思想 基于 一 个 称 为 加 权 
RED (WRED) 的 方法 。 在 这 种 情况 下 ，DSCP 字段 的 值 用 于 在 多 条 丢弃 概率 曲线 中 选择 
一 条 曲线 ， 以 便 能 提供 多 种 不 同类 别 的 服务 。 








区 分 服务 的 低调 成 功 

在 2003 年 ， 许 多 人 断言 区 分 服务 已 经 走向 死亡 。 在 那 年 的 ACM SIGCOMM 年 会 
(最 有 影响 的 网 络 研究 会 议 ) 上 ， 一 个 具有 醒目 名 字 “RIPQoS” 的 小 组 成 立 了 一 一 该 小 组 
的 官方 名 字 是 “ 重 访 IP 服务 质量 *”， 在 小 组 声明 中 清楚 地 上 暗示 QoS 可 能 准备 安详 地 休息 
了 。 然 而 ， 正 如 马克 吐 温 讽刺 他 的 死亡 报道 太 夸 张 了 ， 似 乎 IP 服务 质量 的 死亡 ， 尤 其 是 
区 分 服务 的 死亡 也 太 夸 张 了 。 | 

导致 人 们 对 区 分 服务 持 翡 观看 法 的 主要 原因 是 它 没 有 被 因特网 服务 提供 商 配置 到 任何 重 
要 的 领域 。 不 仅 如 此 ， 而 且 没 有 任何 QoS AL fil fe IP 电话 积 视 频 流 这 样 的 实时 应 用 在 因特网 
上 工作 得 很 好 ， 这 使 人 怀疑 是 否 需 要 任何 QoS。 一 定 程度 上 这 是 许多 因特网 服务 提供 商 提 供 
的 高 带宽 链 路 和 路 由 器 的 配置 ， 特 别 是 在 20 世纪 90 年 代 后 期 网 络 人 车 勃发 展 的 那儿 年 。 

为 了 清楚 区 分 服务 成 功 在 哪里 ， 需 要 看 看 ISP 的 骨干 网 。 例如， 已 经 配置 了 IP 电话 
的 公司 本 书写 作 时 有 数 以 千 万 计 的 企业 级 IP 电话 在 使 用 中 一 一 通常 为 音频 媒体 分 组 
使 用 EF 行为 ， 以 确保 在 和 其 他 流量 共享 链 路 时 不 会 有 延 六 。 同 样 的 方法 用 于 许多 基于 IP 
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on. 仅仅 在 住宅 之 外 的 上 行 链 路 获得 优先 权 〔 例 如 ，DSL ERRES AD, 

常 对 于 语音 端点 为 EF 建立 DSCP， 对 于 连接 到 宽带 链 路 上 的 用 户 的 路 由 器 使 用 区 分 服 
w a gd ye a 
务 移植 到 了 IP 网 络 上 ， 区 分 服务 提供 了 保护 语音 服务 质量 的 方法 。 

除 受益 于 区 分 服务 的 语音 之 外 ， 还 有 一 些 其 他 应 用 ， 特 别 是 商业 数据 服务 。 毋 庸 置疑 ， 
在 未 来 儿 年 中 基于 IP 的 视频 将 逐步 成 熟 ， 这 将 提供 又 一 个 驱动 因素 。 总 的 来 说 ， 两 个 因素 
使 区 分 服务 的 配置 非常 重要 :应 用 程序 对 QoS 保证 的 高 要 求 ， 以 及 链 路 带宽 足以 为 所 有 流量 
RE QoS MENRE. TAKIR TTET ao 样 ， 它 不 能 创 
造 带宽 z EE, 

















za 


提供 区 分 服务 的 第 三 种 方法 是 在 由 6. 2. 2 节 描 述 的 加 权 公 平 排队 调度 程序 中 用 DSCP 
的 值 决 定 将 分 组 放 入 哪个 队列 中 ， 正 如 一 个 非常 简单 的 例子 所 示 ， 我 们 可 以 用 一 个 代码 指 
点 指示 尽力 而 为 服务 Chest-effort) 队列 ， 用 第 二 个 代码 点 选择 加 价 (premium) 队列 。 
然后 我 们 需要 为 加 价 队列 选 一 个 权 值 ， 使 加 价 分 组 获得 比 尽力 而 为 服务 分 组 更 好 的 服务 。 
这 依赖 于 加 价 分 组 提供 的 负载 。 例 如 ， 如 果 令 加 价 队 列 的 权 值 为 1， 令 尽力 而 为 服务 队列 
的 权 什 为 4， 确 保 加 价 分 组 可 获得 的 带 寓 为 

Bosanma Woron? Wierna Whee 41 Cd hd — 02 

就 是 说 ， 我 们 有 效 地 为 加 价 分 组 预定 了 链 路 的 20% ， 这 样 如 果 加 价 通信 量 提供 的 负载 
平均 为 链 路 的 10% ， 那 么 加 价 通信 量 就 好 像 运行 在 一 个 负载 非常 轻 的 网 络 中 ， 因 而 服务 也 
”会 非 稼 好 。 特 别 是 ， 因 为 在 这 种 情况 下 WFQ 试图 让 加 价 分 组 一 到 达 就 被 发 送 ， 所 以 加 价 
分 组 的 延迟 可 以 一 直 保 持 较 低 。 男 一 方面 ， 如 果 加 价 通信 和 量 的 负载 为 30%， 那 么 它 活 动 时 
就 好 像 运 行 在 一 个 负载 很 重 的 网 络 中 ， 而 加 价 分 组 的 延迟 将 非常 高 ， pe 
务 分 组 更 粮 。 因 此 ， 了 人 解 提供 的 负载 和 谨慎 地 设置 权 值 对 这 类 服务 而 言 很 重要 。 但 是 要 
意 ， 安 全 的 方法 在 为 加 价 队 列 设 置 权 值 时 非常 保守 。 和 
多 ， 就 有 可 能 出 错 ， 并 且 也 不 能 避免 尽力 而 为 服务 通信 量 使 用 已 被 加 价 预 定 但 未 被 加 价 分 
组 使 用 的 那 部 分 带宽 。 

和 在 WRED 中 一 样 ， 我 们 可 以 推广 基于 WFQ 的 方法 ， 多 许 由 不 同 代码 点 表示 的 两 
个 以 上 的 类 。 而 且 可 以 把 一 个 队列 选择 器 和 一 种 丢弃 选择 结合 起 来 。 J 用 12 个 代码 
点 ， 我 们 可 以 有 4 个 带 不 同 权 值 的 队列 ， 每 个 队列 有 3 种 丢弃 选择 。 这 正 是 IETF “RH 
保 服务 ”的 定义 中 所 做 的 事情 。 











ATM 服务 质量 

当前 ATM 技术 的 重要 性 不 如 10 年 以 前 ， 但 其 实际 贡献 是 在 QoS 领域 。 在 一 些 方面 ， 

ATM 具有 相当 强 的 QoS 能 力 的 事实 激励 着 IP 中 QoS 的 发 展 。 这 也 有 助 于 旱 期 人 们 对 

ATM 的 采纳 。 | 
在 很 多 方面 ，ATM 网 络 提供 的 服务 质量 性 能 与 使 用 综合 服务 的 IP 网 络 提 供 的 服务 质 

量 性 能 是 类 似 的 。 但 是 与 IETF 的 三 种 服务 类 型 相 比 ，ATM 标准 化 组 织 共 提出 五 种 服务 

3 Al SO 3K LEH ATM 服务 类 型 是 : 


CO 我们 把 尽力 而 为 看 作 是 一 种 服务 类 型 ， 具 有 可 控制 的 负载 和 有 保证 的 服务 。 
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。 固定 比特 速率 CCBR). 

。 本 变 比特 速率 一 一 实时 (VBR-rt)。 

o 可 变 比 特 速 率 非 实时 (VBR-nrt)， 

。 可 利用 比特 速率 (ABR). 

。 未 指明 的 比特 速率 (UBR). 

大 部 分 ATM 和 IP 的 服务 类 型 是 相当 类 似 的 ， 但 其 中 一 类 ABR， 在 IP 中 没有 真正 与 
之 相对 应 的 类 。 下 面 我 们 将 详细 地 解释 这 个 类 。VBR-rt 和 IP 综合 服务 中 的 有 保证 服务 类 
非常 相似 。 用 于 建立 VBR-rt VC 的 确切 参数 和 用 于 做 有 保证 服务 预定 的 参数 略 有 不 同 ， 
但 基本 思想 是 相同 的 。 源 端 产生 的 通信 量 由 令 牌 桶 表示 ， 同 时 指定 穿 过 网 络 需要 的 最 大 总 
jE AK 








除了 希望 CBR 通信 量 的 源 端 以 不 变 的 速率 传送 以 外 ，CBR 也 类 似 于 有 保证 的 服务 。 
注意 事实 上 这 是 VBR 的 一 个 特例 ， 其 中 源 端 的 峰值 速率 和 传送 的 平均 速率 相等 。 

VBR-nrt 和 IP 的 受 控 负 载 服 务 有 些 类 似 。 此 外 ， 源 通信 和 量 由 令 牌 桶 描述 ， 但 在 延 六 
的 保证 方面 ， 它 不 像 VBR-rt 和 IP 有 保证 服务 那么 严格 。UBR 是 ATM 的 尽力 而 为 服务 。 

最 后 ， 我 们 来 看 ABR， 它 不 仅 是 一 个 服务 类 型 ， 还 定义 了 一 系列 拥塞 控制 机 制 。 它 
是 比较 复杂 的 ， 所 以 我 们 这 里 只 涉及 其 中 几 个 要 点 。 

“ABR 机 制 在 虚 电 路 上 运作 是 通过 在 VC 的 源 和 目的 之 间 交 换 一 种 称 为 资源 管理 
(RM) 信 元 的 特殊 ATM 信 元 。 发 送 RM 信 元 的 目的 是 将 网 络 中 有 关 拥 塞 状态 的 信息 回 送 
给 源 端 ， 使 它 能 以 合适 的 速率 发 送 通 信 量 。 就 这 方面 而 言 ，RM 信 元 是 一 种 明确 的 拥塞 反 
人 饥 机 制 。 这 与 DECbit 类 似 (I 6.4.1 节 )， 但 与 靠 丢弃 分 组 来 检测 拥塞 的 TCP 隐 式 反馈 
机 制 相 反 。 它 也 类 似 于 6.3.2 节 中 描述 的 用 于 TCP 的 新 的 快 启动 机 制 。 

最 初 ， 源 端 向 目的 端 发 送信 元 ， 其 中 包含 它 想 发 送 数 据 信 元 的 速率 。 路 径 上 的 交换 机 
查看 该 请 求 速 率 ， 并 决定 在 保证 其 他 正在 传送 的 通信 量 基础 上 ， 是 否 有 足够 的 可 用 资源 来 
处 理 这 一 速率 。 如 果 有 足够 的 资源 可 用 ，RM 信 元 将 不 加 改动 地 被 传送 ; 和 否则， 在 该 信和 元 
传送 前 将 减少 请 求 的 速率 。 在 目的 节点 ，RM 信 元 将 回转 并 发 还 给 源 端 ， 以 便 让 源 知 道 它 
能 以 多 大 的 速率 发 送 。 | 

ABR 人 允许 源 增加 或 减少 其 分 配 率 ， 增 加 还 是 减少 由 当下 条 件 决 定 。 即 以 高 于 或 低 于 
要 求 的 速率 的 周期 性 地 发 送 RM 信 元 。 如 果 不 使 用 源 规定 的 发 送 速率 ， 它 就 会 随 着 时 间 流 
逝 而 衰减 。 通 常 ， 交 换 机 中 的 特定 算法 决定 RM 信 元 穿 过 交换 机 时 的 速率 。 该 算法 借鉴 了 
各 种 信息 (如 当前 缓冲 占用 率 ) 测 得 当前 活跃 VC 的 到 达 速 率 。 这 些 算 法 是 正规 的 拥塞 控 
制 算法 ， 力 求 最 大 限度 地 提高 吞吐 量 ， 并 保持 低 延 时 和 低 损耗 。 | 
| 目前 在 实际 的 网 络 中 ATM 使 用 得 并 不 多 ， 关 于 ATM 服务 质量 人 们 感 兴趣 的 问题 是 
在 不 同 技术 之 上 有 多 少 机 制 。ATM 和 卫 服务 质量 中 的 机 制 包 托 允许 控制 、 调 度 算法 、 令 
牌 桶 、 显 式 拥塞 反馈 机 制 等 。 


6. 5.4 基于 等 式 的 拥塞 控制 | | 

我 们 通过 回顾 TCP 拥塞 控制 的 全 过 程 来 结束 对 QoS 的 讨论 ， 但 这 一 次 是 在 实时 应 用 
的 背景 下 。 回 想 一 下 ，TCP 调整 发 送 方 的 拥塞 窗口 〈 从 而 调整 发 送 速率 ) 以 响应 ACK 和 
超时 事件 。 这 种 方法 的 优点 在 于 ， 它 不 需要 网 络 上 路 由 器 的 配合 ， 它 是 一 种 纯粹 基于 主机 
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的 策略 。 这 种 策略 补充 了 我 们 所 考虑 的 QoS 机 制 ， 这 是 因为 在 QoS 机 制 广泛 采用 之 
前 ， 各 类 应 用 可 以 使 用 目前 的 这 种 基于 主机 的 解决 方案 ; 加 即使 区 分 服务 被 全 部 采用 ， 路 
由 器 队列 仍 有 可 能 超出 预定 ， 如 果 发 生 这 种 情况 ， 我 们 还 是 希望 实时 应 用 以 合理 的 方式 做 
出 反应 。 | 

虽然 我 们 想 要 利用 TCP 的 拥塞 控制 算法 ， 但 是 TCP 本 身 并 不 适合 实时 应 用 。 一 个 原 
因 是 TCP 是 可 靠 的 协议 ， 而 实时 应 用 经 常 不 能 忍受 由 重 传 引入 的 超时 。 然 而 ， 如 果 将 
TCP 从 它 的 拥塞 控制 机 制 中 分 离 出 来 ， 也 就 是 说 ， 给 一 个 不 可 靠 的 协议 〈 像 UDP) 加 入 
类 似 TCP 的 拥塞 控制 ， 那 么 会 发 生 什么 情况 ?实时 应 用 能 够 利用 这 样 的 协议 吗 ? 

一 方面 ， 这 是 一 个 有 吸引 力 的 想法 ， 因 为 它 会 引发 实时 流 与 TCP 流 的 公平 竞争 。 目 
前 所 用 的 一 种 蔡 代 策略 是 视频 应 用 使 用 UDP， 不 用 任何 形式 的 拥塞 控制 ， 结 果 是 TCP 在 
拥塞 时 让 路 ， 人 允许 UDP 侵占 TCP 流 的 带宽 。 另 一 方面 ，TCP 拥塞 控制 算法 的 锯齿 行为 
(LE 6-9) 不 适合 实时 应 用 : 锯齿 意味 着 应 用 传输 的 速率 总 是 上 上 下 下 。 相 反 ， 实 时 应 用 
若 在 相当 长 的 一 段 时 间 内 能 够 维持 一 个 平稳 的 传输 速率 ， 则 工作 得 最 好 。 

是 否 可 能 达到 两 个 方面 的 完美 结合 : 一 方面 为 了 公平 而 与 TCP 拥塞 控制 兼容 ， 一 方 
面 为 了 应 用 而 维持 平稳 的 传输 速率 ”最 近 的 工作 表明 ， 答 案 是 肯定 的 。 尤 其 是 ， 已 经 提出 
了 多 种 所 谓 的 TCP 友好 的 拥塞 控制 算法 。 这 些 算法 有 两 个 主要 目标 。 第 一 个 目标 是 缓慢 
适应 拥塞 窗口 。 这 一 点 是 通过 采用 相对 长 的 时 间 段 〈 如 一 个 RTT) 而 不 是 基于 每 个 分 组 
来 实现 ， 使 得 传输 速率 得 以 平滑 。 第 二 个 目标 为 在 公平 竞争 TCP 流 的 意义 下 是 TCP 友好 
的 。 通 过 把 流 的 行为 附加 到 建 模 TCP 行为 的 等 式 中 可 以 保证 这 一 特性 得 到 满足 。 因 此 ， 
这 种 方法 有 时 称 为 基于 等 式 的 拥塞 控制 (equation-based congestion control), 

在 6. 3 节 中 我 们 看 到 过 一 个 关于 TCP 吞吐 率 的 简单 等 式 ， 有 兴趣 的 读者 可 以 参阅 本 
章 末 参 考 文献 中 的 论文 以 获取 关于 其 完整 模型 的 细节 。 对 我 们 来 说 ， 关 注 下 面 这 个 通用 形 
式 的 等 式 就 足够 了 : 

| Rateoc (RTT) 
这 个 等 式 表 明 ， 为 了 使 TCP 友好 ， 传 输 速 率 必 须 与 往返 时 间 (RTT) 和 丢弃 速率 (Co) 的 
平方 根 成 反比 。 换 言 之 ， 为 了 从 这 个 关系 中 构造 一 个 拥塞 控制 机 制 ， 接 收 方 必 须 定 期 地 向 
发 送 方 报告 当时 的 丢弃 速率 (例如 ， 接 收 方 可 能 报告 最 后 100 个 分 组 中 有 10% 没 有 收 到 )， 
然后 发 送 方 上 下 调整 发 送 速 率 ， 保 证 等 式 关系 继续 成 立 。 当 然 ， 这 还 取决 于 应 用 对 这 些 可 
用 速率 变化 的 适应 性 ， 但 是 正如 我 们 将 在 下 一 章 看 到 的 ， 许 多 实时 应 用 的 适应 性 是 相当 
强 的 。 | 


6.6 小 结 


就 像 我 们 刚才 看 到 的 ， 资 源 分 配 问 题 不 仅 是 计算 机 网 络 的 重点 ， 也 是 一 个 很 难 的 问 
题 。 本 章 讨 论 了 资源 分 配 的 两 个 方面 。 第 一 个 方面 是 拥塞 控制 ， 它 考虑 的 是 当主 机 申请 的 
资源 超过 网 络 可 以 提供 的 资源 时 防止 全 面 的 服务 降级 。 第 二 个 方面 是 给 不 同 的 应 用 提供 不 
同 的 服务 质量 ， 这 些 应 用 需要 的 保证 比 尽 力 而 为 服务 模型 提供 的 保证 要 多 。 

大 多 数 拥塞 控制 机 制 是 针对 当今 因特网 的 尽力 而 为 服务 模型 设计 的 ， 其 拥塞 控制 的 主 
要 职责 落 到 网 络 的 端 节点 上 。 典 型 情况 下 ， 源 使 用 反馈 〈 从 网 络 中 隐 式 地 获得 或 由 路 由 器 
显 式 发 送 ) 来 调整 它 加 在 网 络 上 的 负载 。 这 正 是 TCP 的 拥塞 控制 机 制 所 做 的 工作 。 
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路 由 器 实现 一 种 控制 哪些 分 组 可 以 传输 而 哪些 分 组 被 丢弃 的 排队 规则 ， 这 完全 不 依赖 
于 端 节点 正在 做 的 工作 。 有 时 这 个 排队 算法 可 以 复杂 到 能 隔离 通信 和 量 (例如 WFQ)， 而 在 
其 他 情况 下 ， 路 由 器 试图 监视 它 的 队列 长 度 ， 然 后 在 拥塞 将 发 生 时 发 送信 号 给 源 主机 A 
W, RED 网 关 和 DECbit) 。 

时 下 的 服务 质量 方法 所 做 的 工作 比 拥塞 控制 多 得 多 。 它 们 的 目标 是 使 对 延迟 、 丢 失 和 
吞吐 量 有 着 各 种 需求 的 应 用 程序 所 提出 的 请 求 都 能 通过 网 络 中 的 新 机 制 得 到 满足 。 综 合 服 
务 (IntServ) 方法 允许 单独 的 应 用 流 使 用 显 式 的 信 令 机 制 向 路 由 器 说 明 它 们 的 需要 CRS 
VP) ， 而 区 分 服务 (DiffServ) 将 分 组 指定 到 路 由 器 上 接收 区 分 处 理 的 多 种 不 同 的 类 中 。 
虽然 区 分 服务 是 目前 使 用 较为 广泛 的 方法 ， 但 公 网 的 部 署 中 还 是 鲜 见 区 分 服务 和 综合 
服务 。 


接 下 来 会 发 生 什 么 : 网 络 重 构 


也 许 我 们 应 该 提出 的 更 大 的 问题 是 ， 我 们 可 以 对 网 络 有 哪些 期 望 和 最 终 有 多 少 责任 落 
到 端 主 机 上 。 在 提供 更 多 不 同 服务 质量 方面 ， 基 于 预定 的 策略 明显 优 于 现今 使 用 的 基于 反 
馈 的 策略 ， 能 提供 不 同 质量 的 服务 是 将 更 多 的 功能 放 在 网 络 路 由 器 上 的 主要 原因 。 是 不 是 
这 就 意味 看 像 TCP 这 样 的 只 到 端 拥塞 控制 的 日 子 到 了 届 指 可 数 的 地 步 ? 当然 不 是 。TCP 
和 使 用 TCP 的 应 用 地 位 都 很 牢固 ， 而 且 在 很 多 情况 下 它们 不 需要 从 网 络 中 获得 更 多 的 大 
助 。 进 一 步 说 ， 在 因特网 这 样 世 界 范 围 内 的 异 构 网 络 中 ， 所 有 路 由 矫 都 准确 地 实现 相同 的 





”资源 预定 机 制 是 不 可 能 的 。 最 终 ， 看 来 网 络 中 的 端 节 氮 至 少 在 一 定 程度 上 必须 靠 自 己 。 和 毕 


竞 ， 我 们 不 能 忘记 支撑 因特网 的 正确 设计 原则 是 在 路 由 器 上 做 最 简单 的 事 ， 而 把 所 有 复杂 
的 事 放 在 你 可 以 控制 的 边缘 上 。 除 了 资源 分 配 问题 ， 观 察 上 述 方面 在 未 来 的 几 年 中 如 何 发 
展 将 会 非常 有 趣 。 : 

从 某 种 意义 上 来 讲 ， 区 分 服务 方法 代表 网 络 中 的 绝对 最 少 智能 和 综合 服务 网 络 中 需要 
的 高 智能 〈 同 时 存储 状态 信息 ) 之 间 的 折衷 方 法 。 综 合 服务 和 RSVP 的 部 署 只 在 非常 有 限 
的 环境 〈 主 要 是 在 企业 网 络 ) 中 才能 找到 。 一 个 重要 的 问题 是 区 分 服务 方法 是 否 能 够 满足 
更 苛刻 的 应 用 需求 。 例 如 ， 如 果 一 个 服务 提供 商 试图 提供 在 IP 网 络 上 大 范围 的 视频 点 播 
服务 ， 区 分 服务 技术 是 否 足 以 达到 传统 的 电视 观众 所 期 望 的 服务 质量 ? 随 着 网 络 中 各 种 不 
同 智能 程度 的 变化 ， 看 来 似乎 需要 开发 更 多 的 QoS 选项 。 

在 公共 互联 网 上 ， 一 些 趋势 似乎 指向 分 管 其 QoS 需求 的 终端 系统 。 例 如 ，Skype 的 成 
功 一 部 分 是 靠 免费 服务 使 用 户 愿意 忍受 无 Qos 保证 。 从 技术 的 角度 来 看 ， 速 度 自 适 应 
(Skype 有 可 变 比 特 率 语音 编 解码 器 ) 和 覆盖 路 由 CE 9 章 中 谈 到 的 技术 ) 的 结合 虽然 缺 
乏 网 络 支持 ， 却 已 经 能 够 提供 有 效 的 传输 质量 。 同 时 ， 在 用 户 更 为 苛刻 的 企业 环境 中 ， 部 
署 网 络 级 QoS 支持 的 发 展 日 趋 复 杂 。 








这 一 章 的 推荐 阅读 清单 很 长 ， 反 映 了 人 们 在 拥塞 控制 和 资源 分 配方 面 做 了 很 多 有 意义 
的 工作 。 它 包括 本 章 讨 论 的 引进 各 种 机 制 的 原始 论文 。 如 果 想 要 了 解 上 述 机 制 的 具体 细 
节 ， 包 括 关于 这 些 机 制 的 有 效 性 和 公平 性 的 完整 分 析 ， 这 些 文章 是 不 可 不 看 的 ， 因 为 它们 
给 出 了 有 关 拥 塞 控 制 的 各 种 相互 影响 的 观点 。 为 外 ， 第 一 篇 文章 给 出 了 一 个 很 好 的 关于 本 
主题 的 早期 工作 的 概述 ， 而 最 后 一 篇 则 是 关于 在 因特网 上 开发 QoS 功能 的 重要 文章 之 一 。 
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除了 上 面 推荐 的 文章 ， 还 有 大 量 关 于 资源 分 配 的 有 价值 的 资料 。 对 于 初学 者 ， 开 lein- 
rock LKle79| # Jaffe LJaf81] 这 两 篇 早期 的 文章 莫 定 了 使 用 能 力作 为 衡量 拥塞 控制 有 效 
性 度量 的 基础 。 另 外 ，Jain [Jaigi] 对 和 人 性 能 评估 有 关 的 各 种 问题 给 出 了 彻底 的 讨论 ， 包 
括 Jain 的 公平 性 指标 的 描述 。 
= 有关 TCP Vegas 的 更 多 细节 可 以 在 Brakmo 和 Peterson [BP95] 的 文章 中 找到 ， 后 续 
的 工作 在 Low 等 [LPW02b] 的 文章 中 有 所 描述 。 关 于 TCP 拥塞 控制 算法 的 改进 在 下 列 
文章 将 继续 探讨 。 高 延迟 带宽 积 下 的 TCP Vegas 的 扩展 FAST TCP 在 [WJLH06] 文章 
中 讨论 。Ha 等 人 [HRX08] 的 文章 描述 了 Linux FAR) TCP 变种 CUBIC。Floyd 的 文章 中 
详 述 了 一 种 实验 IETF 标准 : HighSpeed TCP 的 规范 。 类 似 6.4 市 介绍 的 各 种 拥塞 避免 技 
术 可 以 在 Wang 和 Crowcroft [WC92, WC91] 以 及 Jain [Jai89] 的 文章 中 找到 ， 第 一 篇 
文章 还 给 出 一 个 很 好 的 拥塞 避免 方法 的 综述 ， 它 是 基于 人 们 对 网 络 接近 拥塞 时 如 何 变化 的 
共识 给 出 的 。 一 些 人 对 RED 算法 提出 了 改进 ， 这 包括 Lin 等 人 LLM97] 的 文章 中 描述 的 
iit RED (FRED) 。 

Ramala a Floyd 和 Bigek Æ LRFB01] 中 详细 说 明了 ECN 建议 标准 。Stoica 等 
人 的 LSSZ98]、Low 等 人 的 LLPWt 02a] 以 及 Katabi 等 人 的 [KHR02] 以 活动 队列 管 
理 的 形式 推广 了 上 述 思 想 。Katabi 的 文章 介绍 了 XCP， 这 是 一 个 新 提出 的 传输 层 协议 ， 
在 高 珊 宽 环境 下 改善 了 TCP 的 吞吐 量 。 

更 近 的 关于 分 组 调度 的 工作 扩展 了 上 面 引 用 的 最 初 的 公平 排队 的 文章 。 很 好 的 例子 参 
JL Stoica 和 Zhang [ SZ97 |, Bennett 和 Zhang LBZ96 ], V Æ Goyal, Vin 和 Chen 
LGVC96」 的 文章 中 。 

许多 已 出 版 的 其 他 文章 是 关于 综合 服务 体系 结构 的 ， 这 些 文章 包括 Braden 等 人 的 
[BCS94 | 的 概述 和 Zhang 等 人 的 [ZDE+ 93] 关于 RSVP 的 描述 。 讨 论 区 分 服务 这 一 主题 
的 第 一 篇 文章 是 Clark 的 [Cla97]， 这 篇 文章 介绍 RIO 机 制 和 区 分 服务 总 的 体系 结构 。 其 
后 Clark 和 Fang 的 LCF98] 给 出 一 些 模拟 结果 。Blake 等 人 的 LBBCT 98] 和 定义 了 区 别 服 
务 体系 结构 ，Davie 等 人 的 LDCB+ 02] 定义 了 EF 每 一 跳 的 行为 。 想 了 解 遵循 互联 网 上 尽 
力 而 为 服务 时 实时 应 用 程序 的 耗费 ， 我 们 推荐 Chen [CHHL06] SASH Skype 用 户 
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满意 度 这 篇 论文 。 


最 后 ， 除 了 上 述 针对 传统 数据 应 用 程序 特性 而 改进 TCP 的 工作 ， 人 们 又 提出 了 多 个 


TCP 友好 的 拥塞 控制 算法 ， 并 为 适应 实时 应 用 做 了 修改 。 在 Floyd 等 人 的 [FHPW00]， 
Sisalem 和 Schulzrinne 的 [SS98]、Rhee 等 人 的 [ROY00] 以 及 Rejaie 等 人 的 [RHE99 | 
中 包括 这 些 算 法 。 这 些 算法 建立 在 Padhye 等 人 的 [PFTK98] 早期 提出 的 基于 等 式 模型 
的 TCP 吞吐 量 基 础 上 。 一 个 TCP 友好 的 吞吐 量 控制 协议 已 经 被 IETF [HFPW03] 定义 
T; 在 UDP 中 增加 拥塞 控制 的 想法 已 经 导致 了 数据 报 拥塞 控制 协议 (DCCP) [KHF06] 


的 产生 。 | 
习题 
1. 可 以 基于 主机 到 主机 或 基于 进程 到 进程 定义 流 。 


3. 


i 


Ca) 讨论 每 种 方法 对 应 用 程序 的 含义 。 | : 

Cb) IPv6 包含 一 个 FlowLabel 字段 ， 用 于 向 路 由 器 提供 有 关 单 独 流 的 线索 。 源 主机 将 在 这 个 字段 放 一 
个 用 于 标识 流 的 其 他 所 有 字段 的 伪 随 机 散 列 值 ， 这 样 路 由 器 可 以 使 用 这 些 位 中 的 任意 子 集 作 为 散 
列 值 来 快速 查找 流 。FlowLabel 字段 基于 这 两 种 方法 的 哪 一 个 ? 


: TCP 使 用 以 主机 为 中 心 的 、 基 于 反馈 的 和 基于 窗口 的 资源 分 配 模型 。 如 何 设 计 TCP 以 替代 下 列 模型 ? 


(a) 以 主机 为 中 心 的 、 基 于 反馈 的 和 基于 速率 的 模型 。 
(b) 以 路 由 器 为 中 心 的 和 基于 反馈 的 模型 。 

对 于 以 太 网 ， 如 第 2 章 中 的 习题 51， 平 均 分 组 大 小 为 5 个 时 间 段 ， 而 且 当 有 N 个 站 点 试图 发 送 时 ， 直 
到 有 一 个 站 点 发 送 成 功 的 平均 延迟 为 N/2 个 时 间 段 。 分 别 画 出 以 春 吐 量 、 延 迟 和 能 力作 为 负载 函数 时 
的 曲线 图 。 知 吐 量 按 其 最 大 值 的 百分比 计量 ， 负 载 按 在 任意 时 刻 同时 准备 发 送 数据 的 站 点 的 数目 
(N) 计量 《有些 不 真实 ) 。 注 意 ， 这 意味 着 总 有 一 个 站 点 准备 发 送 (除非 N=0， 但 这 种 情况 可 忽略 )。 
假设 每 个 站 点 在 一 个 时 刻 只 有 一 个 分 组 要 发 送 。 


. 假设 两 台 主 机 A 和 B 通 过 一 台 路 由 器 R 相连 。A 到 R 的 链 路 带宽 为 无 限 大 ，R 到 B 的 链 路 每 秒 可 以 


发 送 一 个 分 组 。R 的 队列 为 无 限 大 。 负 载 按 每 秒 从 A 到 了 发 送 的 分 组 数 计 量 。 画 出 吞吐 量 对 负载 和 延 
迟 对 负载 的 图 ; 如 果 画 不 出 图 ， 解 释 原 因 。 计 量 人 负载 是 否 有 更 恰当 的 方法 ? 


. TCP Reno 是 否 可 能 到 达 这 样 的 状态 拥塞 窗口 尺寸 远大 于 RITX 带 宽 〈 例 如 它 的 2 倍 )? 这 可 能 吗 ? 
. 考虑 图 6-27 中 主机 H 和 路 由 器 R 及 R1 的 排列 。 所 有 链 路 都 是 全 双 工 的 ， 而 且 所 有 路 由 需 都 比 它们 


的 链 路 快 。 说 明 路 由 器 RI 不 会 出 现 拥 寨 ,同时 对 于 其 他 的 任何 路 由 器 RR， 我 们 可 以 找到 一 种 只 让 该 
路 由 器 拥塞 的 通信 和 模式。 





图 6-27 习题 6 的 图 示 


假设 一 个 拥塞 控制 方案 可 以 使 一 组 竞争 的 流 获得 下 列 的 乔 吐 率 ，200KBps，160KBps，110KBps， 
95KBps 和 150KBps。 
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Ca) 计算 这 种 方案 的 公平 性 指数 。 
Cb) 在 这 些 流 中 再 加 入 一 个 吞吐 率 为 1 000KBps 的 流 ， 重 新 计算 公平 性 指数 。 


8. 在 公平 排队 中 ， 值 F; 被 解释 为 一 个 时 间 惟 : 第 i 个 分 组 完成 传送 的 时 刻 。 给 出 加 权 公 平 排队 中 的 忆 


的 解释 ， 并 根据 Fi- BARNE A;、 分 组 大 小 已 以 及 为 该 流 指 定 的 权 值 ww， 给 出 F 的 公式 。 


9. 举例 说 明 公平 排队 实现 中 的 非 抢 先 策略 如 何 导致 与 按 位 轮转 服务 不 同 的 分 组 传送 顺序 。 


10. 


vil. 


假设 一 台 路 由 器 有 三 个 输入 流 和 一 个 输出 。 它 收 到 表 6-1 所 列 的 分 组 ， 它 们 几乎 在 同一 时 间 内 以 所 列 

顺序 到 达 ， 其 间 输 出 端口 忙 ， 但 所 有 队列 是 空 的。 在 下 列 情况 下 ， 给 出 分 组 传送 的 顺序 : 

(a) 公平 排队 。 

(b) 加 权 公 平 排队 ， 流 2 的 权 值 为 4， 其 他 两 个 流 的 权 值 为 1。 

假设 一 台 路 由 器 有 三 个 输入 流 和 一 个 输出 。 它 收 到 表 6-2 所 列 的 分 组 ， 它 们 几乎 在 同一 时 间 内 以 所 列 

顺序 到 达 ， 其 间 输 出 端口 已 ， 但 所 有 队列 是 空 的 。 在 下 列 情况 下 ， 给 出 分 组 传送 的 顺序 : 

Ca) 公平 排队 。 

Cb) 加 权 公平 排队 ， 流 2 的 权 值 是 流 1 的 2 倍 , 流 3 的 权 值 是 流 1 的 1.5 倍 。 注 意 ， 按 照 流 1、 流 2、 
流 3 的 顺序 。 


表 6-1 习题 10 的 分 组 6-2 习题 11 的 分 组 
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假设 路 由 器 的 丢弃 策略 是 ， 当 队列 满 的 时 候 丢弃 开销 最 大 的 分 组 ， 其 中 分 组 “开销 ”的 定义 是 分 组 
长 度 与 它 在 队列 中 的 剩余 〈remainning) 时 间 的 乘积 。 (注意 ,在 计算 开销 时 ， 用 前 面 的 分 组 长 度 之 
和 代替 剩余 时 间 ， 结 果 是 等 价 的 。) 

(a) 与 队 尾 丢 弃 相 比 ， 这 一 策略 有 哪些 利 闵 ? 

(b) 给 出 排队 分 组 序列 的 一 个 实例 ， 其 中 丢弃 最 大 开销 分 组 的 顺序 不 同 于 丢弃 最 大 分 组 的 顺序 。 

Cc) 给 出 一 个 例子 ， 其 中 两 个 分 组 随 着 时 间 的 伸延 其 相应 开销 的 顺序 发 生 互 换 。 

两 个 用 户 ， 一 个 用 Telnet 而 另 一 个 用 FTP 发 送 文件 ， 都 通过 路 由 器 R 将 其 通信 和 量 送出 。R 的 输出 链 
路 太 慢 以 至 于 两 个 用 户 的 分 组 一 直 留 在 RR 的 队列 中 。 如 果 R 对 这 两 个 流 使 用 如 下 的 排队 策略 ， 讨 论 
Telnet 用 户 看 到 的 相对 性 能 。 

(a) 轮转 服务 。 

Cb) 公平 排队 。 

O 修改 后 的 公平 排队 ， 其 中 我 们 只 计算 数据 字 节 的 开销 ， 不 计算 TCP 和 IP 首部 的 开销 。 

只 考虑 输出 通信 量 。 假 设 Telnet 分 组 有 1 字 节 数据 ，FTP 分 组 有 512 字 节 数据 ， 并 且 所 有 分 组 有 40 
字 节 的 首部 。 

考虑 一 台 路 由 器 ， 它 管理 着 三 个 流 ， 在 下 列 时 钟 时 刻 每 个 流 都 有 固定 大 小 的 分 组 到 达 : 

Ad I Oe, De Bo 7S Bs T0 | 

mM Be 2s 65. 8s. dae 125 15: 

it. Cee di 2s By Se! De Fs B 

所 有 三 个 流 共 享 同一 条 输出 链 路 ， 路 由 器 在 该 链 路 上 每 个 时 间 单 元 只 能 传送 一 个 分 组 。 假 设 有 一 个 
无 限 大 的 缓冲 区 空间 。 
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(a) 假设 路 由 器 实现 公平 排队 。 每 个 分 组 被 路 由 器 传送 时 ， 给 出 挂钟 时 间 。 到 达 时 间 的 关系 将 按 A, 
B、C 的 顺序 解决 。 注 意 ， 挂 钟 时 间 T= 2 就 是 公平 排队 时 钟 时 间 A; =1.5, 

Cb) 假设 路 由 器 实现 加 权 公 平 排队 ， 其 中 对 流 A 和 流 B 给 出 相等 的 容量 份额 ， 对 流 C 给 出 的 容量 是 
流 A 的 2 倍 。 每 个 分 组 被 传送 时 ， 给 出 挂钟 时 间 。 | 

考虑 一 台 路 由 器 ， 它 管理 着 三 个 流 ， 在 下 列 挂钟 时 刻 每 个 流 都 有 固定 大 小 的 分 组 到 达 : 


JA: Is 35 Ds 6; 85 9, Us 


流 Be le ae Ti Cy 9; 13445; 
mO: 1h 2A Oy T Te 
所 有 三 个 流 共享 同一 条 输出 链 路 ， 路 由 器 在 链 路 上 每 个 时 间 单 元 只 能 传送 一 个 分 组 。 假 设 有 一 个 无 
限 大 的 缓冲 区 。 | 
Ca) 假设 路 由 器 实现 公平 排队 。 每 个 分 组 被 路 由 器 传送 时 ， 给 出 挂钟 时 间 。 到 达 时 间 的 关系 将 按 A, 
B、C 的 顺序 解决 。 注 意 ， 挂 钟 时 间 T=2 就 是 公平 排队 时 钟 时 间 A; = 1. 333, 
Cb) 假设 路 由 器 实现 加 权 公 平 排队 ， 其 中 对 流 A 和 流 C 给 出 的 容量 份额 相等 ， 对 流 B 给 出 的 容量 是 
流 人 A 的 2 倍 。 每 个 分 组 被 传送 时 ， 给 出 挂钟 时 间 。 
假设 TCP 实现 一 种 扩展 ， 人 允许 窗口 大 小 远大 于 64KB。 假 设 你 用 这 一 扩展 TCP 在 一 条 延迟 为 50ms 
的 1Gbps 链 路 上 传送 一 个 10MB 的 文件 ， 而 且 TCP 接收 窗口 为 1MB。 如 果 TCP Rik 1KB 的 分 组 
(假设 无 拥塞 ， 无 丢失 分 组 ) : 
Ca) 当 慢 启动 打开 发 送 窗口 达到 1MB 时 用 了 多 少 RTT? 
Cb) 发 送 该 文件 用 了 多 少 RTT? 
Cc) 如 果 发 送 文 件 的 时 间 由 所 需 的 RTT 的 数量 与 链 路 延迟 的 乘积 给 出 ,传输 的 有 效 吞 吐 量 是 多 少 ? 
链 路 带宽 的 利用 率 是 多 少 ? 
考虑 一 个 简单 的 拥塞 控制 算法 : 使 用 线性 增加 和 成 倍 减 少 ， 但 不 用 慢 启 动 ， 以 分 组 而 不 是 以 字 市 为 
单位 ， 局 动 每 个 连接 时 拥塞 窗口 的 值 为 一 个 分 组 。 给 出 这 一 算法 的 详细 描述 。 假 设 延 迟 只 有 传输 时 
延 ， 而 且 发 送 一 组 分 组 时 ， 只 返回 一 个 ACK。 在 分 组 9、25、30、38 和 50 丢失 的 情况 下 ， 夯 出 拥塞 
窗口 作为 往返 时 间 的 函数 图 。 为 了 简单 起 见 ， 假 设 有 一 个 完美 的 超时 机 制 ， 它 在 恰好 传送 一 个 RTT 
后 检测 到 一 个 丢失 的 分 组 。 
在 前 一 个 问题 给 定 的 条 件 下 ， 计 算 这 个 连接 可 获得 的 有 效 吞 吐 量 。 假 设 每 个 分 组 包含 1 KB 数据， 且 
RTT = 100ms, 
在 线性 增加 期 间 ，TCP 用 下 面 的 公式 计算 拥塞 窗口 的 增 量 : 
Increment= MSS X (MSS/Congestion Window) 
解释 为 什么 每 个 ACK 到 达 时 计算 这 个 增 量 可 能 得 不 到 正确 的 增 量 值 。 对 这 个 增 量 给 出 一 个 更 精确 的 
定义 。( 提 示 : 一 个 给 定 的 ACK 可 以 表示 已 收 到 多 于 或 少 于 一 个 MSS 信 的 数据 。) 
在 什么 环境 下 ，TCP 中 即使 使 用 快速 重 传 机 制 仍 然 可 能 发 生 粗 粒度 超时 ? 
假设 在 A 和 B 之 间 有 路 由 器 R。A 到 R 的 带宽 无 限 大 〈 即 分 组 无 延迟 ), 但 R 到 B 的 链 路 引入 每 秒 
一 个 分 组 的 带宽 延迟 ( 即 两 个 分 组 用 2s， 依 此 类 推 )。 但 是 从 B 到 RR 的 确认 可 以 立即 发 送 。A 通过 一 
A TCP 连接 给 B 发 送 数 据 ， 用 慢 启 动 但 窗口 尺寸 任意 大 。R 除了 发 送 中 的 分 组 外 ， 有 长 度 为 1 的 一 
个 队列 。 在 每 一 秒 中 ， 发 送 方 先 人 处理 到 达 的 ACK ， 再 响应 任何 超时 。 
(a) 假设 固定 的 TimneOut 为 2s， 在 T=0，1，…，6s 了 时， 发送 和 收 到 的 分 别 是 哪些 分 组 ?由 于 超时 
链 路 会 空闲 吗 ? 
(b) 如 果 TimeOut 是 3s， 有 哪些 变化 ? 
假设 A、R、B 如 前 一 题 所 述 ， 本 题 中 所 不 同 的 是 除了 发 送 中 的 分 组 外 ，R 有 长 度 为 三 个 分 组 的 队 
列 。A 用 慢 启 动 启动 一 个 连接 ， 接 收 窗 口 为 无 限 大 。 在 第 二 个 重复 ACK 时 〈 即 同一 分 组 的 第 三 个 
ACK 时 )， 进 行 快速 重 传 ，TimeOut 间隔 为 无 限 大 。 忽 略 快速 恢复 ， 当 一 个 分 组 丢失 时 ,设置 窗口 大 
小 为 1。 用 表格 表示 在 前 15s 内 A 收 到 什么 和 A 发 送 什 么 ， 以 及 R 发 送 什么 、R 的 队列 和 R 丢弃 


Lon 


24. 


20. 


26. 


27. 


28. 


29. 


30. 


31. 


什么 。 

假设 上 一 题 中 R 到 B 的 链 路 从 带宽 延迟 变 为 传播 延迟 ， 这 样 用 1s 可 发 送 两 个 分 组 。 列 出 在 前 8s 内 
发 送 了 什么 和 接收 了 什么 。 假 设 静态 超时 值 为 2s， 在 超时 时 使 用 慢 启 动 ， 而 且 在 几乎 同一 时 间 发 送 
的 ACK 被 合并 。 注 意 现 在 R 的 队列 长 度 是 无 关 的 (为 什么 ?)。 
假设 主机 A 通过 路 由 器 Rl1 和 R2 到 达 主 机 B: A-R1-R2-B。 不 用 快速 重 传 ， 且 A 以 2 X Estimate- 
dRTT 计算 TimeOut, 假设 A 到 R1 及 R2 到 B 的 链 路 有 无 限 大 的 带宽 ,但 是 R1 到 R2 的 链 路 为 数据 
分 组 (但 不 是 ACK) 引入 每 分 组 ls 的 带宽 延迟 。 描 述 这 样 一 种 情况 ， 其 中 即使 A 总 有 数据 要 发 送 ， 
R1 到 R2 的 链 路 利用 率 也 没有 达到 100%. GER: 假设 A 的 CongestionWindow 从 N 增加 到 N+1, 
EP N ÆR BAJKE.) 

你 是 一 个 因特网 服务 提供 商 ， 你 的 客户 主机 直接 连 到 你 的 路 由 器 上 。 你 知道 一 些 主机 正在 使 用 实验 
性 的 TCP， 而 且 猜 想 有 些 主 机 可 能 正在 使 用 无 拥塞 控制 的 “ 贪 禁 的 ”TCP。 你 可 以 在 路 由 内 上 做 哪 
些 测量 来 确定 一 个 客户 根本 没有 使 用 慢 启动 ? 如 果 一 个 客户 只 在 启动 时 使 用 慢 启动 ， 但 不 是 超时 发 
生 后 ， 你 能 检测 到 吗 ? 

使 TCP 拥塞 控制 机 制 失 败 通常 需要 发 送 方 的 显 式 协 作 。 然 而 ， 考 虑 大 数据 传输 的 接收 方 ， 使 用 改进 
为 尚未 到 达 的 ACK 分 组 的 TCP。 这 么 做 可 能 是 因为 并 不 需要 数据 的 全 部 内 容 ， 或 者 是 因为 丢失 的 数 
据 能 够 在 后 续 的 一 次 独立 传输 中 被 恢复 。 这 种 接收 方 的 行为 对 会 话 中 的 拥塞 控制 特性 有 什么 影响? 
你 能 设计 出 一 种 修改 TCP 的 方法 ， 以 避免 发 送 方 以 这 种 方式 被 利用 吗 ? 

考虑 图 6-28 中 的 TCP 轨迹。 分 别 确定 在 启动 时 进行 的 慢 启 动 的 时 间 区 间 、 超 时 后 的 慢 启 动 的 时 间 区 
间 以 及 线性 增加 的 拥塞 避免 的 时 间 区 间 。 解 释 T= 二 0.5~ 1.9 期 间 将 发 生 什么 事情 。 产 生 这 种 轨迹 的 
TCP 版 本 包含 一 个 图 6-11 TCP 中 没有 的 性 质 ， 这 个 性 质 是 什么 ? 这 个 轨迹 和 图 6-13 中 的 轨迹 都 
缺乏 一 个 性 质 ， 这 个 性 质 是 什么 呢 ? 
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图 6-28 习题 27 的 TCP 轨迹 


假设 你 正在 一 条 3KBps 的 电话 链 路 上 下 载 一 个 大 文件 ， 软 件 上 显示 一 个 每 秒 平均 字 节 的 计数 器 。 

TCP 拥塞 控制 和 偶尔 的 分 组 丢失 如 何 使 计数 器 产生 波动 ? 假设 只 有 总 RTT 的 1/3 花 在 电话 链 路 上 。 

假设 TCP 用 于 一 条 存在 丢失 的 链 路 ， 该 链 路 平均 每 4 个 数据 段 中 丢失 一 个 。 假 设 延迟 带宽 积 窗 口 尺 

寸 远大 于 4 个 数据 段 。 | 

(a) 当 我 们 启动 一 个 连接 时 会 发 生 什么 ? RAKIY OE BED? 

(b) 不 使 用 来 自 路 由 器 的 显 式 反馈 机 制 ，TCP 有 办 法 区 分 拥塞 丢失 和 链 路 丢失 吗 (至 少 在 短 时 间 
内 )? | 

(c) 假设 TCP 发 送 方 确实 可 靠 地 从 路 由 器 获得 显 式 的 拥塞 控制 指示 。 假 设 上 面 的 链 路 是 普通 的 ， 要 
支持 远大 于 4 个 数据 段 的 窗口 尺寸 是 可 行 的 吗 ? TCP 必须 做 些 什么 呢 ? | 

假设 两 个 TCP 连接 共享 一 条 经 过 路 由 器 R 的 路 径 。 路 由 器 的 队列 长 度 为 6 个 数据 段 ， 每 个 连接 有 固 

定 的 3 个 数据 段 的 拥塞 窗口 。 这 些 连接 不 使 用 拥塞 控制 。 第 三 个 TCP 连接 现在 也 试图 通过 路 由 器 R， 

且 不 用 拥塞 控制 。 描 述 这 样 一 种 情景 ， 至 少 在 一 小 段 时 间 内 ， 第 三 个 连接 没有 得 到 任何 可 用 的 带宽 ， 

前 两 个 连接 继续 各 占用 带宽 的 50% 。 如 果 第 三 个 连接 使 用 慢 启动 会 发 生 问题 吗 ? 就 前 两 个 连接 部 分 

而 言 ， 完 全 的 拥塞 避免 怎样 才 有 助 于 解决 这 个 问题 ? | 

假设 一 个 TCP 连接 有 大 小 为 8 个 报 文 段 的 窗口 ， 一 个 RIT 为 800ms， 发 送 方 以 每 100ms 一 个 报 文 段 
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的 固定 速率 发 送 报 文 段 ， 接 收 方 以 同样 的 速率 无 延迟 地 返回 ACK。 一 个 报 文 段 丢失 了 ， 人 快速 重 传 算 
法 根据 收 到 的 第 三 个 重复 ACK， 检 测 到 这 一 丢失 。 当 重 传 分 组 的 ACK 最 终 到 达 时 ， 在 下 列 情况 下 ， 
发 送 方 总 共 损 失 了 多 少时 间 (与 无 丢失 传输 相 比 )? 

(a) 发 送 方 在 请 动 窗口 再 次 向 前 滑动 之 前 等 待 重 传 琉 失 分 组 的 ACK., 

Cb) 发 送 方 用 相继 到 达 的 每 个 重复 ACK 作为 它 可 以 将 窗口 向 前 滑动 一 个 数据 段 的 指示 。 

本 章 中 叙述 了 加 性 增 是 使 拥塞 控制 机 制 稳定 的 必要 条 件 。 简 述 如 果 所 有 增加 都 是 指数 级 的 ， 就 可 能 
引起 特殊 的 不 稳定 性 ， 就 是 说 ，TCP 在 CongestionWindow 增长 到 超过 CongestionThreshold 后 ， 继 
续 使 用 慢 启 动 。 

讨论 标记 一 个 分 组 (如 在 DECbit 机 制 中 ) 和 丢弃 分 组 (如 在 RED 网 关中 不 执行 ECN) 各 自 的 利弊 。 

考虑 一 个 RED 网关， 其 平均 队列 长 度 在 两 个 阔 值 中 间 和 且 MaxP = 0. 01, 

Ca) 分 别 计算 count = 1 和 count = 100 时 的 丢弃 概率 Poount。 

Cb) 计算 前 50 个 分 组 无 丢弃 的 概率 。 注 意 这 个 概率 等 于 (1 一 Pi1) XX (1 一 Pso)。 

考虑 一 个 RED 网 关 ， 其 平均 队列 长 度 在 两 个 阐 值 中 间 且 MaxP= py 

(a) 计算 前 2 个 分 组 不 被 丢弃 的 概率 。 

(b) 求 p， 使 得 满足 前 n 个 分 组 不 被 丢弃 的 概率 是 a。 


. 解释 在 RED 网 关中 设置 MaxThreshold=2X MinThreshold 的 直观 原因 。 

. 在 RED ARF, 解释 为 什么 事实 上 MaxThreshold 比 可 用 缓冲 池 的 实际 长 度 小 。 

. 解释 容忍 突 发 性 与 控制 网 络 拥 塞 之 间 的 基本 冲突 。 

. 为 什么 RED 网 关 的 丢弃 概率 P 卫 不 是 简单 地 从 MinThresh 时 的 P=0 线性 增长 到 MaxThresh 时 的 P=1? 

. 在 RFC 3168 中 定义 的 显 式 拥 窗 通知 (ECN) 要 用 1 比特 指示 端点 是 否 文 持 ECN。 斌 分析 没 有 这 1 比 


符 的 不 利 影响 。 


. Æ TCP Vegas 中 ， 用 一 个 RTT Ba pga RTT 的 长 度 计算 ActualRate。 


Ca) 说 明 对 于 任何 TCP， 如 果 窗 口 尺 寸 保持 不 变 ， 那么 一 旦 整个 窗口 的 数据 被 发 送 ， 则 在 一 个 RTT 
间隔 内 传送 的 数据 量 也 是 不 变 的 。 a haart ACK 后 就 立即 传送 每 个 数据 段 ， 分 组 没 
有 丢失 且 按 顺序 传送 ， 所 有 数据 段 的 长 度 相 同 ， 且 该 路 径 上 的 第 一 条 链 路 不 是 最 慢 的 链 路 。 

(b) 给 出 时 间 线 图 示 ， 表 示 上 面 每 个 RTT 传送 的 数据 量 可 能 小 于 CongestionWindow。 

假设 一 个 TCP Vegas 连接 测量 第 一 个 分 组 的 RTT， 并 将 BaseRTT 的 值 设 置 为 测量 到 的 RTT 值 ,但 

是 后 来 一 条 链 路 发 生 故 障 ， 于 是 所 有 后 续 的 通信 量 被 路 由 选择 到 了 另 一 条 RTT 为 原 RTT 两 倍 的 路 

径 上 。TCP Vegas 会 对 此 做 何 反 应 ?7 CongestionWindow 的 值 有 什么 变化 ?假设 没有 实际 的 超时 发 生 ， 

而 且 8 远 小 于 ExpectedRate 的 初始 值 。 

考虑 引起 1s 网 络 延 迟 的 下 面 两 个 原因 (假设 ACK 立即 返回 ): 

。 一 个 中 间 路 由 器 ， 它 的 带宽 延迟 为 每 个 分 组 用 1s 输出 ， 且 无 竞争 的 通信 和 量 

。 一 个 中 间 路 由 器 ， 它 的 带宽 延迟 为 每 个 分 组 用 100ms 输出 ， 且 固定 地 将 10 个 分 组 (来 自 其 他 源 ) 
补充 到 队列 中 。 | 

(a) 通常 ， 传 输 协 议 可 能 怎样 区 分 这 两 种 情况 ? 

(b) 假设 TCP Vegas 在 上 述 连接 上 人 发送 ， CongestionWindow 的 初始 值 为 三 个 分 组 。 在 每 种 情况 下 
CongestionWindow 会 发 生 什么 变化 ? 假设 BaseRTT = 1s H 8 等 于 每 秒 一 个 分 组 。 

许多 实时 视频 应 用 因为 不 能 容忍 重 传 时 延 ， 因 此 运行 在 UDP 上 而 不 是 TCP 上。 然而， 这 就 意味 着 

视频 应 用 不 受 TCP 拥塞 控制 算法 的 限制 。 这 会 对 TCP 流量 带 来 什么 影响 ?该 因果 关系 是 明确 的 吗 ? 

好 在 这 些 视 频 应 用 通常 使 用 RTP ( 见 5.4 节 )， 它 导致 RTCP 接收 方 报告 被 发 送 到 源 。 这 些 报告 被 周 

期 性 地 发 送 ( 例 如， 每 秒 钟 一 次 ) 并 且 包 含 在 最 后 报告 期 间 成 功 接 收 分 组 的 百分比 。 描 述 在 TCP 3R 

容 的 方法 中 源 如 何 使 用 这 些 信 息 来 调整 其 发 送 速 率 。 

讨论 为 什么 拥塞 控制 问题 在 互联 网 层 比 在 ATM 层 更 好 管理 ， 至 少 在 互联 网 仅 有 一 部 分 是 ATM 时 是 

这 样 的 。 在 专用 的 IP-over-ATM 网 络 中 ， 拥塞 控制 在 信 元 层 还 是 在 TCP 层 更 好 管理 ? 为 什么 ? 
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考虑 图 6-23 中 的 分 类 。 

(a) 给 出 一 个 非 容 疏 型 /速率 自 适应 型 Cintolerant/rate adaptive) 实时 应 用 程序 的 例子 。 

(b) 解释 为 什么 你 可 能 希望 一 个 容忍 丢失 的 应 用 至 少 有 某 种 速率 自 适 应 

(c) 尽管 有 O) 中 的 解释 ， 仍 要 给 出 一 个 可 看 作 是 容 已 型/ 非 自 ; ean (tolerant/nonadaptive) 应 用 
的 例子 。( 提 示 : 容忍 即使 再 小 的 丢失 ， 也 是 容忍 丢失 的 应 用 ; 你 需要 将 速率 自 适 于 应 解释 为 适应 
重大 带宽 变化 的 能 力 。) 

一 个 给 定 流 的 传输 时 间 表 ( 见 表 6-3) 列 出 每 秒 中 发 送 分 组 的 数目 。 表 6-3 ”习题 47 的 传输 时 间 表 
该 流 必 须 保持 在 令 牌 桶 过 滤器 的 范围 内 。 对 于 下 列 令 牌 速 率 ， 流 需 ”时 间 C8) 分 组 发 送 
要 的 令 牌 桶 深度 是 多 少 ? 假设 桶 开始 时 是 满 的 。 0 
(a) 每 秒 2 个 分 组 。 
(b) 每 秒 4 个 分 组 。 2 

一 个 给 定 流 的 传输 时 间 表 ( 见 表 6-4) 列 出 每 秒 中 发 送 分 组 的 数目 。 3 
该 流 必 须 保 持 在 令 牌 桶 过 滤器 的 范围 内 。 求 作为 令 牌 速率 ~ 的 函数 4 
必需 的 桶 深度 D. TERE, r 只 能 取 正 整数 值 。 假 设 桶 开始 时 是 满 的 。 
假设 一 台 路 由 器 已 经 接收 了 TSpecs 流 ， 如 表 6-5 所 示 ， 用 令 牌 速率 为 每 秒 个 分 组 旦 桶 深 REN B 个 
分 组 的 令 牌 桶 过 滤器 来 描述 它 。 所 有 流 都 在 同一 个 方向 ， 路 由 器 每 0. 1s 转发 一 个 分 组 。 

(a) 一 个 分 组 可 能 面临 的 最 大 延迟 是 多 少 ? 
(b) 假设 第 三 个 流 一 直 以 最 大 速率 均匀 地 发 送 分 组 ， 路 由 器 在 2. 0s 内 能 从 该 流 发 送 分 组 的 最 小 数目 


em} Oo] rt AJ] © 


是 多 少 ? 
表 6-4 习题 48 的 传输 时 间 表 % 6-5 习题 49 的 TSpecs 

时 间 (s) 分 组 发 送 r a 
0 9 1 10 
1 9 2 4 
2 1 - 
3 0 = ee 
4 6 


假设 一 台 RSVP 路 由 器 罕 然 丢失 了 它 的 预定 状态 ， 但 仍 在 和 运行。 

Ca) 如 果 路 由 圳 用 单个 FIFO 队列 处 理 预定 的 和 非 预 定 的 流 ， 已 预定 的 流 会 出 现 什么 情况 ? 
Cb) 如 末路 由 右 用 加 权 公 平 排队 隔离 预定 的 和 非 预 定 的 通信 和 量 ， 已 预定 的 流 会 出 现 什么 情况 ? 
O 最 终 ， 这 些 流 的 接收 方 会 请 求 重 新 开始 它们 的 预定 。 给 出 这 些 请 求 被 拒绝 的 一 种 情况 。 
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在 获得 数据 之 前 就 构建 理论 是 大 错 特 错 的 。 








已 只 是 一 个 未 解释 的 字 节 串 。 然 
而 ， 从 应 用 程序 的 观点 看 ， 这 些 消息 包含 各 种 类 型 的 数据 (data) 一 一 整 型 数组 、 视 频 
帧 、 文 本 行 、 数 字 图 像 ， 等 等 。 换 名 话说， 这 些 字 节 是 有 含义 的 。 我 们 现在 来 考虑 这 样 一 
个 问题 ， 怎 样 更 好 地 对 应 用 程序 要 转换 成 字 节 串 的 各 种 不 同类 型 的 数据 进行 编码 。 从 许多 
方面 来 看 ， 这 类 似 于 我 们 在 2. 2 节 见 到 的 把 字 闻 串 编 码 为 电磁 信号 的 问题 。 

回顾 第 2 章 对 编码 的 讨论 ， 实 质 上 涉及 两 个 问题 。 第 一 是 接收 方 能 从 信号 中 提取 出 与 
传送 方 发 送 的 消息 相同 的 消息 ， 这 就 是 组 帧 的 问题 。 第 二 是 尽 可 能 地 提高 编码 效率 。 把 应 
用 程序 数据 编码 为 网 络 消息 时 都 存在 这 两 个 问题 。 

为 了 让 接收 方 提 取 发 送 方 发 来 的 消息 ， 就 出 现 了 发 送 方 和 接收 方 要 统一 消息 格式 的 问 
题 ， 通 常 称 为 表示 格式 (presentation format)。 例 如 ， 发 送 方 要 给 接收 方 发 送 一 个 整 型 数 
组 ， 那 么 双方 必须 协商 每 个 整数 是 什么 样 的 表示 格式 〈 比 如， 长度 为 多 少 字 节 ， 采 用 怎样 
的 排列 方式 ， 以 及 最 高 有 效 位 最 先 到 达 还 是 最 后 到 达 )， 以 及 在 数组 中 有 多 少 元 素 。7.1 
节 讲 述 传统 计算 机 数据 的 各 种 编码 ， 如 整数 、 浮 点 数 、 字 符 串 、 数 组 和 结构 体 。 还 有 一 些 
为 多 媒体 数据 制定 的 格式 ， 例 如 视频 一 般 是 用 运动 图 像 专家 组 (Moving Picture Experts 
Group, MPEG) 所 创建 的 某 种 格式 传输 ， 而 静止 图 像 通 名 用 联合 图 像 专家 组 (Joint Pho- 
tographic Experts Group, JPEG) 格式 传输 。 在 多 媒体 数据 编码 中 出 现 的 具体 问题 将 在 
T2 WAY. l | 

我 们 需要 考 虚 多 媒体 类 型 数据 的 表示 和 压缩 (compression) 两 个 方面 。 我 们 熟知 的 
传输 格式 、 音 频 存 储 格 式 、 视 频 处 理 格式 都 有 这 些 问 题 ， 确保 什么 内 容 被 记录 、 补 拍照 或 
者 被 听 到 ， 以 便 接收 方 可 以 正确 解读 发 送 方 发 送 的 信息 ， 而 且 这 人 么 做 在 某 种 程度 上 可 以 使 
网 络 不 被 大 量 的 多 媒体 数据 所 淹没 。 | 

压缩 及 更 普遍 的 编码 效率 问题 由 来 已 入， 可 追溯 到 20 世纪 40 年 代 香 农 关 于 信息 论 的 
早期 工作 。 实 际 上 ， 人 们 朝 着 两 个 相反 的 方 癌 努 力 。 一 方面 ， 我 们 希望 在 数据 中 加 入 尽 可 
能 多 的 元 余 ， 以 便 即 使 消息 出 现 了 错误 ,接收 方 仍 能 提取 出 正确 的 数据 。 我 们 在 2. 4 节 的 
差错 检测 和 纠 错 码 中 所 看 到 的 给 消息 添加 多 余 信 息 的 做 法 正 是 为 了 这 一 目的 。 男 一 方面 ， 
我 们 希望 尽 可 能 从 数据 中 删 挥 更 多 的 元 余 ， 以 便 能 用 更 少 的 比特 进行 编码 。 鉴 于 我 们 的 感 
官 和 大 脑 处 理 视 觉 和 听觉 信号 的 方式 ， 多 媒体 数据 为 压缩 提供 了 大 量 的 机 会 。 我 们 听 不 见 
高 频 声 音 也 听 不 到 低频 声音 ， 就 像 我 们 不 能 像 注意 一 张大 图 片 一 样 注意 图 像 中 的 所 有 细 
作 ， 尤 其 是 图 像 移 动 时 。 

我 们 有 足够 的 理由 证 明 压 缩 对 网 络 设计 者 是 重要 的 ， 原 因 之 一 是 我 们 很 难保 证 处 处 
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都 有 带宽 充裕 的 网 络 。 例 如 ， 我 们 设计 压缩 算法 的 方式 影响 着 对 丢失 和 延迟 数据 的 敏感 
度 ， 从 而 影响 资源 分 配 机 制 和 端 到 端 协议 的 设计 。 反 之 ， 如 果 在 一 个 视频 会 议 期 间 撒 层 
网 络 不 能 保证 一 定量 的 带宽 ， 那 么 我 们 就 可 以 选择 设计 能 适应 网 络 条 件 变化 的 压缩 
最 后 ， 表 示 格 式 化 和 数据 压缩 的 一 个 重要 特征 就 是 需要 发 送 主 机 和 接收 主机 处 理 消 息 
数据 中 的 每 个 字 节 。 为 此 ， 表 示 格 式 化 和 压缩 有 时 称 为 数据 操纵 〈data manipulation) 功 
能 。 与 我 们 至 今 看 到 的 大 多 数 协 议 不 同 ， 这 些 协议 处 理 信息 时 不 考虑 其 包含 的 内 容 。 由 于 
必须 对 消息 中 数据 的 每 个 字 节 进行 读 、 计 算 和 写 ， 所 以 数据 操纵 会 影响 网 上 端 到 端的 否 吐 
量 。 实 际 上 ， 这 些 操纵 可 能 就 是 影响 吞吐 量 的 一 些 因素 。 
7. 


1 表示 格式 化 


最 常见 的 网 络 数 据 转 换 就 是 应 用 程序 使 用 的 表示 法 和 适合 网 络 传 输 的 格式 之 间 的 相互 
转换 。 通 常 将 这 种 转换 称 为 表示 格式 化 应 用 各 soe 
(presentation formatting), WKI 7-1 Bra, 数据 数据 
发 送 程序 把 要 传输 的 数据 由 其 内 部 表示 形式 
转换 成 可 以 在 网 上 传输 的 消息 ， 也 就 是 说 ， 
数据 被 编码 〈encoded) 成 消息 。 在 接收 端 ，， ee] 
应 用 程序 把 接收 到 的 消息 再 转换 成 它 可 以 处 La 
理 的 表示 形式 ， 也 就 是 说 ， 消 息 被 解码 (de- | 消息 || 消息 |…| 消息 | 
coded). 。 编 码 有 时 也 称 为 参数 排列 Cargu- 
ment marshalling)， 解 码 有 时 也 称 还 原 
(unmarshalling) 。 此 术语 来 自 RPC 领域 ， 客 户 端 认为 它 调 用 了 一 个 带 着 一 组 参数 的 过 程 ， 
这 些 参 数 “ 按 适当 的 、 有 效 的 方法 排列 和 组 织 ?8 ， 从 而 构成 网 络 消息 。 

你 也 许 会 间 ， 编 码 问题 为 什么 如 此 复杂 ， 以 致 于 要 用 到 像 排列 这 样 的 名 称 。 原 因 之 一 
是 计算 机 用 不 同 的 方法 表示 数据 。 例 如 ， 有 些 计算 机 用 IEEE 标准 754 格式 表示 浮 点 数 ， 
而 有 些 仍 使 用 它们 自己 的 非 标 准 格 式 。 即 使 是 像 整 型 数 那 么 简单 的 数据 ， 不 同体 系 结构 也 
要 使 用 不 同 的 长 度 表示 (例如 16 位 、32 位 、64 位 )。 更 糟 的 是 ， 一 些 计 算 机 将 整 型 数 表 
示 成 高 端 字 节 序 (big-endian) 形式 (一 个 字 的 最 高 有 效 位 在 高 地 址 字 节 中 )， 而 另 一 些 则 
将 整 型 数 表示 成 低 端 字 节 序 Clittle-endian) 形式 〈 一 个 字 的 最 高 有 效 位 在 低地 址 字 节 中 ) 。 
MIPS 和 PowerPC 处 理 妖 是 高 端 字 节 序 体系 结构 的 例子 ， 而 Intel x86 系列 则 是 低 端 字 节 
序 体系 结构 的 例子 。 图 7-2 中 ， 分 别 给 出 整数 34 677 374 的 高 端 字 节 序 表示 法 和 低 端 字 节 
序 表示 法 。 | | 

使 参数 排列 变 得 困难 的 男 一 个 原因 是 应 用 程序 用 不 同 的 语言 编写 ， 而 且 ， 即 使 你 只 使 
用 一 种 语言 ， 也 可 能 有 不 止 一 个 编译 程序 。 举 例 来 说 ， 编 译 程序 在 内 存 中 怎样 存放 结构 
(记录 )， 如 组 成 结构 的 字段 之 间 填 充 多 少 位 ， 就 有 很 大 的 自由 度 。 因 而 ， 即 使 计算 机 的 体 
系 结构 和 写 程序 的 语言 都 相同 ， 你 也 不 能 简单 地 把 结构 从 一 台 计 算 机 传 给 另 一 台 计 算 机 ， 
因为 目标 机 上 的 编译 程序 也 许 对 结构 中 字段 的 位 置 做 了 不 同 的 调整 。 
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图 7-1 包含 编码 和 解码 应 用 程序 数据 的 表示 格式 化 


O 这 是 《 韦 氏 新 大 学 词典 》 中 对 排列 的 定义 。 
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图 7-2 整数 34 677 374 的 高 端 字 节 序 和 低 端 字 节 序 的 字 节 顺序 


低 端 字 节 序 | 01111110 | 00100010 | 00010001 | 00000010 


7.1.1 分 类 方法 


尽管 任何 做 过 参数 排列 的 人 都 会 告诉 你 ， 参 数 排列 不 会 将 火箭 科学 这 样 难 的 理论 包含 
进去 ， 它 只 是 摆弄 比特 位 的 一 桩 小 事 ， 但 你 需要 在 许多 设计 方案 中 做 出 选择 。 我 们 首先 给 
出 参数 排列 系统 的 简单 分 类 方法 。 以 下 虽 不 是 唯一 可 行 的 分 类 方法 ， 但 它 足 以 涵盖 大 多 数 
重要 的 可 供 选 择 的 方案 。 

1. 数据 类 型 

第 一 个 问题 是 系统 打算 支持 什么 样 的 数据 类 型 。 通 常 ， 我 们 可 以 将 由 参数 排列 机 制 支 
持 的 类 型 分 为 三 级 ， 每 一 级 都 使 人 参数 排列 系统 面 对 更 复杂 的 任务 。 

在 最 低级 ， 人 参数 排列 系统 对 基本 类 型 (base type) 的 某 个 集合 进行 操作 。 通 常 ， 基 本 
类 型 包括 整数 、 浮 点 数 和 字符 。 系 统 还 可 以 支持 序数 类 型 和 布尔 型 。 如 上 所 述 ， 基 本 类 型 
集合 的 含义 是 指 ， 编 码 进程 必须 能 将 每 一 基本 类 型 从 一 种 表示 法 转换 为 男 一 种 表示 法 ， 如 
把 整 型 从 高 端 字 节 序 表示 转换 为 低 端 字 节 序 表示 。 

向 上 一 级 是 扁平 类 型 (lat type) : 结构 和 数组 。 扁 平 类 型 初 看 起 来 并 不 会 使 参数 排列 
系统 复杂 化 ， 实 则 不 然 。 问 题 是 ， 为 了 按 字 的 边界 对 齐 字 段 ， 编 译 程序 在 编译 应 用 程序 时 
习惯 于 在 组 成 结构 的 字段 之 间 加 入 填充 。 参 数 排列 系统 通常 将 结构 压缩 (pack) 使 得 它们 
不 含 填 充 。 | 

在 最 高 级 ， 人 参数 排列 系统 必须 处 理 复杂 类 型 (complex type): 使 用 指针 建立 的 类 
型 。 也 就 是 说 ， 一 个 程序 要 发 送 给 为 一 个 程序 的 数据 结构 可 以 不 包含 在 某 个 单一 的 结构 
中 ， 而 可 能 包含 从 一 个 结构 指向 为 一 结构 的 指针 。 树 就 是 包含 指针 的 复杂 类 型 的 一 个 很 
好 的 例子 。 显 然 ， 数 据 编 码 需 必须 为 网 上 传输 准备 
好 数据 结构 ， 因 为 指针 是 通过 内 存 寻 址 实现 的 ， 而 
且 ， 驻 留 在 一 台 计 算 机 上 某 个 内 存 地址 的 结构 并 不 
意味 着 在 另 一 台 计 算 机 上 有 相同 的 驻 留 地 址 。 换 名 
话说 ， 人 参数 排列 系统 必须 串 行 化 (serialize) 〈 展 开 ) 
复杂 数据 结构 。 

a ee 

有 关 ， 它 的 任务 通常 包括 基本 类 型 转换 、 结 构 压 As oo 

缩 、 复 杂 数 据 结构 线性 化 ， 它 们 共同 构建 了 一 个 

可 以 在 网 上 传输 的 连续 消息 。 这 个 任务 如 图 7-3 

所 示 。 | 图 7-3 参数 排列 转换、 压缩 和 线性 化 


应 用 程序 数据 结构 
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2. 转换 策略 

类 型 系统 一 旦 建立 ， 接 下 来 要 讨论 的 问题 就 是 参数 排列 程序 采用 什么 样 的 转换 策略 。 
一 般 有 两 个 选择 ， 标准 中 间 形 式 (canonical intermediate form) 和 接收 方 调 整 (receiver- 
makes-right) 。 接 下 来 ， 我 们 依次 讨论 每 一 种 转换 策略 。 

标准 中 间 形 式 的 概念 就 是 要 确定 每 一 种 类 型 的 所 有 外 部 表示 法 。 在 发 送 数据 前 ， 发 送 
主机 将 数据 由 其 内 部 表示 转换 成 这 种 数据 的 外 部 表示 ， 而 在 接收 数据 的 过 程 中 ， 接 收 主机 
又 把 这 种 数据 的 外 部 表示 转换 成 其 本 地 的 表示 。 为 了 说 明 这 种 思想 ， 我 们 来 考虑 整 型 数 
据 ， 其 他 数据 类 型 按 类 似 的 方法 处 理 。 你 可 以 把 整 型 数 说 明 为 要 用 于 外 部 表示 的 高 端 字 市 
序 形式 。 发 送 主 机 必须 把 它 发 送 的 每 个 整数 翻译 成 高 端 字 节 序 形式 ， 而 接收 主机 必须 把 高 
端 字 节 序 形式 的 整数 翻译 成 它 所 使 用 的 一 种 表示 方法 。 (这 正 是 在 因特网 中 对 协议 首部 做 
HIES 当然 ， 发 送 主机 也 许 已 经 使 用 了 高 端 字 节 序 形式 ， 在 这 种 情况 下 就 不 需要 再 转 
换 了 。 

另 一 个 选择 有 时 称 为 接收 方 调整 ， 它 允许 发 送 方 用 其 内 部 格式 传输 数据 ; 发送 方 不 进 
行 基本 类 型 的 转换 ， 但 通常 要 压缩 和 展开 较 复 杂 的 数据 结构 。 然 后 接收 方 人 负责 把 数据 从 发 
送 方 的 格式 翻译 成 其 本 地 的 格式 。 用 这 种 策略 的 问题 是 ， 每 台 主 机 必须 准备 好 转换 来 目 所 
有 其 他 体系 结构 的 数据 。 这 在 联网 技术 中 被 认为 是 一 个 NXN 解决 方案 (N-by-N solu- 
tion): NN 个 体系 结构 中 的 每 一 台 计 算 机 都 必须 能 处 理 所 有 NN 个 体系 结构 的 数据 。 相 反 ， 
在 一 个 使 用 标准 中 间 形 式 的 系统 中 ， 每 台 主 机 只 需要 知道 它 自己 的 表示 法 和 为 一 特定 的 表 
示 法 (一 种 外 部 表示 法 ) 之 间 怎 么 转换 。 | 

使 用 共同 的 外 部 格式 是 正确 的 做 法 吗 ? 当然 这 是 网 络 界 过 去 25 年 来 的 习惯 看 法 。 然 
而 ， 答 案 并 不 总 是 肯定 的 。 事 实证 明 对 各 种 基本 类 型 不 存在 那么 多 不 同 的 表示 法 ， 或 者 说 
NN 不 会 那么 大 。 另 外 ， 更 普遍 的 情况 是 同一 类 型 的 两 台 计 算 机 彼此 通信 。 在 这 种 人 情形 下 ， 
如 果 把 一 种 体系 结构 表示 的 数据 翻译 成 一 些 男 外 的 外 部 表示 ， 而 在 接收 方 又 必须 反 过 来 把 
数据 翻译 成 相同 体系 结构 的 表示 ， 似 乎 是 愚 春 的 。 

第 三 种 选择 是 《尽管 我 们 知道 不 存在 使 用 它 的 系统 ): 如 果 发 送 方 知 道 接收 方 有 同样 
的 体系 结构 就 使 用 接收 方 调整 法 ; 如 果 两 台 计 算 机 采用 不 同体 系 结构 ， 就 使 用 某 种 标准 中 
间 形 式 。 这 时 ， 发 送 方 如 何 了 解 到 接收 方 的 体系 结构 ? 它 可 以 从 一 台 名 字 服 务 器 或 者 首先 
使 用 一 个 简单 的 测试 例子 看 是 否 产 生 相 应 的 结果 来 获得 该 信息 。 

3. 标记 

参数 排列 中 的 第 三 个 问题 是 接收 方 如 何 知道 它 接收 的 消息 中 包含 什么 类 型 的 数据 。 有 
两 种 常用 的 方法 ， 带 标记 (tagged) 数据 和 不 带 标 记 (untagged) 数据 。 带 标记 的 方法 十 
分 直观 ， 所 以 我 们 首先 来 介绍 它 。 

标记 是 指 包含 在 消息 中 的 任何 附加 信息 〈 除 了 基本 类 型 具体 表示 之 外 的 信息 )， 它 有 
助 于 接收 方 解 码 消息 。 有 几 种 标记 可 以 包含 在 消息 中 。 例 如 ， 每 个 数据 项 可 以 增加 一 个 类 
型 (type) 标记 。 类 型 标记 说 明 其 后 跟着 的 值 是 整数 、 浮 点 数 或 其 他 类 型 。 另 一 个 例子 就 
是 长 度 〈length) 标记 。 这 样 的 标记 用 于 说 明 一 个 数组 元 素 的 个 数 或 一 个 整 型 数 的 长 度 。 
第 三 个 例 子 是 体系 结构 (architecture) 标记 ， | 
它 可 以 与 接收 方 调整 策略 相 结合 ， 说 明生 成 消 LNT | 1 | | 
居中 所 含 数据 的 体系 结构 。 图 7-4 描述 了 如 何 用 图 7-4 用 带 标记 消息 编码 的 32 位 整数 
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带 标记 消息 的 方法 编码 一 个 简单 的 32 位 整数 。 

当然 ， 另 一 个 方法 就 是 不 用 标记 。 那 么 ， 在 这 种 情况 下 ， 接 收 方 怎样 知道 如 何 解码 数 
据 呢 ? 它 知道 如 何 解码 是 因为 程序 中 已 经 指定 。 换 句 话 说， 如 果 你 调用 一 个 带 参 数 的 远程 
NH, ， 其 参数 为 两 个 整数 和 一 个 浮 点 数 ， 那 么 这 个 远程 过 程 就 不 必 检 查 标记 以 了 解 正在 接 
收 的 类 型 数据 ， 它 只 假设 消息 包含 两 个 整数 和 一 个 浮 点 数 ， 并 做 相应 的 解码 。 对 于 大 多 数 
情况 ， 这 样 做 是 有 效 的 ， 只 在 发 送 可 变 长 数组 时 例外 。 在 这 种 情况 下 ， 一 般 用 长 度 标记 来 
说 明 数 组 的 长 度 。 | 

不 带 标记 数据 的 方法 也 是 值得 关注 的 ， 它 意味 着 表示 格式 化 是 真正 端 到 端的 。 对 于 一 
些 中 间 代 理 而 言 ， 如 果 不 标记 数据 ， 就 不 可 能 解释 消息 。 你 也 许 会 间 ， 中 间 代 理 为 什么 需 
要 解释 消息 ? 这 是 因为 为 解决 系统 设计 不 能 处 理 的 问题 而 提出 的 特定 解决 方案 往往 会 导致 
奇怪 的 事情 发 生 。 不 良 网 络 设计 的 问题 不 在 本 书 讨论 的 范围 。 

4. PE 

桩 是 实现 参数 排列 的 一 段 代 码 。 一 般 桩 是 用 来 支持 RPC 的 。 在 客户 端 ， 桩 把 过 程 参 
数 排列 成 可 以 通过 RPC 协议 传输 的 消息 。 在 服务 器 端 ， 桩 反 过 来 把 这 个 消息 转换 成 一 组 
用 来 调用 远程 过 程 的 参数 。 桩 或 者 被 解释 或 者 被 编译 。 

在 基于 编译 的 方法 中 ， 每 个 过 程 都 有 一 个 定制 的 客户 桩 和 服务 器 桩 。 虽 然 桩 可 由 人 工 
设计 ， 但 它们 通常 是 由 桩 编译 程序 根据 过 程 接口 的 描述 产生 的 。 这 个 情形 如 图 7-5 所 示 。 
由 于 桩 是 编译 的 ， 所 以 通常 它 的 效率 很 高 。 在 基于 解释 的 方法 中 ， 系 统 提供 通用 的 客户 桩 
和 服务 器 桩 ， 它 们 都 由 过 程 的 接口 描述 来 设置 参数 。 因 为 这 种 描述 很 容易 修改 ， 所 以 解释 
的 桩 优点 是 具有 灵活 性 ， 而 编译 的 桩 在 实际 中 更 常见 。 
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图 7-5 桩 编译 程序 把 接口 描述 作为 输入 并 输出 客户 桩 和 服务 器 桩 


7.1.2 例子 (XDR, ASN. 1, NDR) 


现在 ， 我 们 按照 分 类 方法 简要 地 描述 三 种 流行 的 网 络 数据 表示 法 ， 并 用 整数 基本 类 型 
来 说 明 每 个 系统 是 如 何 工作 的 。 


1. XDR 


外 部 数据 表示 (External Data Representation, XDR) 是 用 在 SunRPC 上 的 网 络 格 
式 。 在 刚才 介绍 的 分 类 方法 中 ，XDR 支持 以 下 内 容 : 

。 除 函 数 指针 外 的 整个 C 类 型 系统 。 

。 定义 一 个 标准 中 间 形 式 。 

。 不 使 用 标记 〈 除 了 说 明 数 组 的 长 度 外 ) 。 

。 使 用 编译 的 桩 。 

一 个 XDR 整数 是 编码 一 个 C 整数 的 32 位 数据 项 。 用 两 个 辅助 记号 表示 它 ， 这 两 个 辅 
助 记号 是 : C 整数 的 最 高 有 效 字 节 在 XDR 整数 中 的 首 字 节 ，C 整数 的 最 低 有 效 字 市 在 
XDR 整数 中 的 第 4 字 节 。 就 是 说 ，XDR 对 整数 使 用 高 端 字 节 序 格式 。 就 像 C 代码 一 样 ， 
XDR 既 支 持 有 符号 整数 也 支持 无 符 亏 整数 。 

XDR 表示 可 变 长 数组 时 ， 首 先 给 出 说 明 数 组 中 元 素 个 数 的 无 符号 整数 〈4 个 字 市 )， 
再 跟随 一 些 相应 类 型 的 元 素 。XDR 按 结构 分 量 在 结构 中 的 说 明 顺序 来 编码 。 对 数组 和 结 
构 的 每 一 个 元 素 或 分 量 的 大 小 都 用 4 个 字 节 的 倍数 表示 。 较 小 的 数据 类 型 用 全 0 填充 到 4 
个 字 节 。“ 填 充 到 4 个 字 节 ”的 规则 有 一 个 例外 ， 对 于 字符 类 型 ， 每 个 字 节 编码 一 个 字符 。 

下 面 代 码 段 给 出 一 个 C 结构 体 〈item) 以 及 编码 /解码 此 结构 的 XDR 例 程 (xdr _ i- 
tem) 的 例子 。 图 7-6 是 XDR 关于 这 个 结构 体 的 实际 表示 ， 在 这 个 结构 体 中 字段 name 是 
7 个 字符 长 ， 数 组 list 中 有 3 个 值 。 


#define MAXNAME 256: 
#define MAXLIST 100; 


struct item 4 


int count; 
char name[MAXNAME |]: 
int SELMA, EIST: 
i 
bool_t 


xdr_item(XDR *xdrs, struct item xptr) 
{ 


return(xdr_int(xdrs, &ptr->count) && 
xdr_string(xdrs, &ptr->name, MAXNAME) && 
xdr_array(xdrs, &ptr->list, &ptr->count, MAXLIST, 
SIZCOTCING OP T 





在 这 个 例子 中 ，xdr_array、xdr_int 和 xdr_string 是 XDR 分 别 为 编码 和 解码 数组 、 整 
A SH FF FB $e PEAY ZEA PA. BM xdrs 是 一 个 环境 变量 ，XDR 用 它 跟 踪 消 息 处 理 过 程 中 
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的 位 置 ， 它 包含 一 个 标志 来 说 明 这 个 例 程 是 用 于 编码 消息 还 是 用 于 解码 消息 。 换 名 话说 ， 
子 程序 xdr_item 既 可 以 用 在 客户 端 又 可 以 用 在 服务 器 端 。 注 意 ， 应 用 程序 员 既 可 以 手工 
编写 xdr_item 例 程 ， 也 可 以 使 用 称 为 rpcgen (CRER) 的 桩 编译 器 产生 这 个 编码 /解码 
例 程 。 在 后 一 种 情况 中 ，rpcgen 用 定义 数据 结构 item 的 远程 过 程 作 为 输入 ， 并 输出 相应 
的 桩 。 

当然 ，XDR 到 底 怎样 执行 依赖 于 数据 的 复杂 性 。 在 整 型 数组 的 简单 情况 下 ， 其 中 每 
“个 整数 必须 按 一 个 字 节 到 另 一 个 字 节 的 顺序 转换 ， 每 个 字 节 平均 需要 .3 条 指令 ， 意 味 着 整 
个 数组 的 转换 受 存储 器 限制 。 每 个 字 节 进行 更 复杂 的 转换 时 需要 更 多 指令 ， 这 会 导致 其 受 
CPU 限制 且 因 此 而 以 低 于 内 存 带宽 的 数据 率 工 作 。 

2. ASN. 1 


抽象 语法 标记 1 (Abstract Syntax Notation One, ASN.1) 是 一 个 ISO 标准 ， 它 定义 
网 上 发 送 数据 的 一 种 表示 方法 。ASN. 1 的 专用 表示 方法 部 分 称 为 基本 编码 规则 (Basic 
Encoding Rules, BER), ASN. 1 支持 无 函数 指针 的 C 类 型 系统 ， 定 义 标准 中 间 形 式 ， 并 
使 用 类 型 标记 。 它 的 桩 或 者 被 编译 或 者 被 解释 。ASN. 1 BER 为 人 们 所 知 的 原因 之 一 是 它 
被 用 于 因特网 标准 的 简单 网 络 管理 协议 (Simple Network Management Protocol, 
SNMP). | | 
ASN.1I 用 三 元 组 的 形式 表示 每 个 数据 项 ， 
(tag, length, value) 





虽然 ASN.1 RIFE XSF PMc, H tag 通常 是 一 个 8 位 的 字段 。length 字段 说 明 val- 
ue 要 占 多 少 字 节 。 下 面 详细 讨论 length。 复 合 数据 类 型 〈 比 如 结构 体 ) AT Lia Bae 
数据 类 型 来 构造 ， 如 图 7-7 所 示 。 


oinnia tH AEE ET i HT TT HE TE HITE EET TH 
i 
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如 果 value 小 于 或 等 于 127 字 节 ， 那 么 就 用 单字 节 来 指定 length. Alt, WA 7-8 所 
示 ， 一 个 32 位 整数 被 编码 为 1 字 节 type, 1 字 节 length 以 及 4 字 节 编码 整数 。 在 一 个 整 
数 的 情况 下 ， 正 如 XDR 表示 法 那样 ，value 本 身 用 2 的 补 码 表示 而 且 用 高 端 字 节 序 形 式 。 
记 住 即使 整数 的 value 在 XDR 和 ASN. 1 中 用 完全 相同 的 方法 表示 ， 但 XDR RA PRE 
有 与 整数 相关 的 type 标记 也 没有 length 标记 。 这 两 个 标记 在 消息 中 都 占 一 定 空 间 ， 更 重 
要 的 是 ， 它 们 都 需要 在 参数 排列 和 还 原 的 过 程 中 处 理 。 这 是 ASN. 1 不 如 XDR 效率 高 的 一 
个 原因 。 另 外 ， 每 个 数据 值 的 前 面 有 一 个 length 字段 ， 这 就 意味 着 数据 值 不 可 能 正好 落 在 
自然 字 节 的 边界 上 〈 例 如 ， 一 个 整数 在 一 个 字 的 边界 开始 ) 。 这 使 编码 /解码 处 理 更 加 
复杂 。 : 
如 果 value 大 于 或 等 于 128 字 节 ， 那 么 用 多 个 字 节 来 说 明 其 length。 这 时 你 也 许 要 问 ， 
为 什么 一 个 字 节 能 说 明 至 多 127 个 字 节 而 不 是 256 个 字 节 的 长 度 ? 原因 是 length 字段 中 的 
1 位 用 来 指示 length 字段 有 多 大 。 第 8 位 为 0 指示 length 字段 为 1 字 节 。 为 了 说 明 更 长 的 
length， 将 第 8 位置 为 1， 其 他 7 位 说 明 再 加 上 多 少 字 节 组 成 length。 图 7-9 说 明 一 个 单一 
的 1 79 length 和 一 个 多 字 玉 length. 
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图 7-8 4 字 节 整数 的 ASN. 1/BER 表示 图 7-9 长 度 的 ASN.1/BER 表示 
3. NDR 


网 络 数 据 表 示 法 (Network Data Representation, NDR) 是 用 于 分 布 式 计 算 环 境 
(Distributed Computing Environment，DCE， 我 们 在 5.3 节 中 会 介绍 ) 的 数据 编码 标准 。 
与 XDR 和 ASN.1 不 同 ，NDR 使 用 接收 方 调整 方式 。NDR 表示 法 在 每 条 消息 前 插入 一 个 
体系 结构 标记 ， 而 对 单个 数据 项 是 不 带 标记 的 。NDR 使 用 编译 程序 生成 桩 ， 这 个 编译 程 
序 用 接口 定义 语言 (Interface Definition Language, IDL) 写 出 程序 描述 并 生成 必要 的 桩 ，。 
IDL 看 起 来 和 C 非常 相似 ， 所 以 ， 基 本 上 文 持 C 类 型 系统 。 

图 7-10 说 明 包含 在 每 个 NDR 编码 消息 中 前 面 4 字 节 的 体系 结构 定义 标记 。 第 一 个 字 
节 含 两 个 4 位 的 字段 。 第 一 个 字段 IntegrRep 〈 整 数 格 式 ) 定义 消息 中 所 有 整数 的 格式 : 0 
表示 高 端 字 节 序 整数 ，1 表示 低 端 字 节 序 整数 。CharRep (FEI) 字段 说 明 所 使 用 的 
字符 格式 : 0 表示 ASCH (美国 国家 信息 交换 标准 代码 )，1 表示 EBCDIC 〈 一 个 更 早 的 由 
IBM 定义 的 不 同 于 ASCI 的 编码 ) 。 接 下 来 ，FloatRep ( 浮 点 数 格 式 ) 字段 定义 使 用 哪 一 
种 浮 点 数 表 示 法 : 0 表示 IEEE 754, 1 表示 VAX, 2 表示 Cray, 3 表示 IBM。 最 后 两 个 字 
节 保 留 将 来 使 用 。 注 意 像 整 型 数组 这 样 的 简单 情况 ，NDR 做 的 很 多 工作 都 与 XDR 相同 ， 
所 以 它 也 能 达到 同样 的 性 能 。 
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图 7-10 NDR 的 体系 结构 标记 


7.1.3 ”标记 语言 (XML) 


尽管 我 们 从 RPC 的 观点 讨论 了 表示 格式 化 的 问题 ， 也 就 是 说 ， 如 何 编码 基本 数据 类 
型 和 复合 数据 结构 使 它们 能 从 客户 程序 被 发 送 到 服务 器 程序 ， 但 同样 的 问题 在 其 他 环境 中 
也 存在 。 例 如 ，Web 服务 器 如 何 描述 一 个 Web 页 面 才能 使 不 同 的 浏览 器 知道 在 屏幕 上 该 
显示 什么 ? 在 这 种 特定 的 情况 下 ， 答 案 就 是 超 文本 标记 语言 (HyperText Markup Lan- 
guage， 昌 TML)， 它 指示 某 些 字符 串 应 该 用 粗 体 或 斜体 显示 ， 应 该 使 用 什么 类 型 的 字体 和 
字号 ， 以 及 图 像 应 该 放 在 什么 位 置 。 

由 于 Web 非常 流行 ， 并 且 Web 上 存在 各 种 各 样 的 应 用 和 数据 ， 这 就 导致 了 不 同 的 
Web 应 用 之 间 需 要 互相 通信 和 理解 对 方 数 据 的 情况 。 例 如 ， 一 个 电子 商务 网 站 需要 和 一 个 
物流 公司 的 网 站 沟通 ， 以 便 人 允许 客户 不 用 离开 电子 商务 网 站 就 可 以 跟踪 一 个 包 训 。 实 际 上 
这 看 起 来 很 像 RPC， 如 今 Web 采用 的 服务 器 之 间 的 通信 方法 是 基于 可 扩展 标记 语言 (Ex 
tensible Markup Language, XML) 的 。 
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标记 语言 W HTML A XML, 使 用 标签 数据 来 达到 目的 。 数 据 被 表示 为 文本 ， 而 且 
锌 称 为 标记 (markup) 的 文本 标签 与 数据 文本 交织 起 来 表示 数据 信息 。 事 实 上 HTML 只 
实现 了 如 何 将 文本 显示 出 来 ， 而 其 他 的 标记 语言 可 以 标记 数据 类 型 和 数据 结构 。 

XML 实际 上 是 一 个 框架 ， 用 于 为 不 同 的 数据 定义 不 同 的 标记 语言 。 例 如 ，XML 可 用 
来 定义 一 种 大 致 等 同 于 HTML 的 标记 语言 ， 叫 作 可 扩展 超 文本 标记 语言 (Extensible Hy- 
per Text Markup Language, XHTML). XML 为 标记 和 数据 文本 相 混 合 定义 了 基本 语法 ， 
但 特殊 标记 语言 的 设计 者 必须 命名 并 定义 其 标记 。 一 种 普遍 的 做 法 是 将 基于 XML 的 语言 
简单 地 称 作 XML， 不 过 在 本 书 中 ， 我 们 仍 要 强调 其 中 的 区 别 。 

XML 语法 看 起 来 很 像 HTML。 例如 ， 一段 用 假设 基于 XML 的 语言 记载 的 雇员 
记录 如 下 面 的 XML 文档 (document) 所 示 ， 而 且 可 以 存储 在 employee. xml 文件 中 。 
第 一 行 次 明 所 用 的 XML 版 本 ， 其 余 几 行 指 定 构成 雇员 记录 的 4 个 字段 ， 其 中 最 后 一 
个 字段 (hiredate) 包含 三 个 子 字 段 。 换 名 话说，XMEL 允许 用 户 指定 成 对 的 标记 / 值 的 
山 套 结构 ， 这 种 结构 可 以 等 价 于 一 个 表示 数据 的 树 状 结构 (把 employee 作为 根 节 
点 )。 这 类 似 于 XDR, ASN. 1 和 NDR 表示 复合 类 型 的 能 力 ， 但 是 ， 它 使 用 的 是 一 种 
既 能 由 程序 处 理 且 具有 可 读 性 的 格式 。 更 重要 的 是 ， 一 些 程序 CUNARD ah) 可 以 用 来 
跨越 不 同 的 基于 XML 语言 ， 因 为 这 些 不 同 语言 的 定义 都 可 以 表示 为 数据 并 提交 给 这 
些 程序 进行 分 析 。 

<?xml version="1.0"%> 

<employee> 

<name>dohn Doe</name> 

<title>Head Bottle Washer</title> 

<}d>123456789</id> 

<hiredate> 
<day>5</day> 
<month>dJune</month> 
<year>1986</year> 

</hiredate> 

</employee> 

虽然 文档 中 的 数据 和 标记 都 很 容易 理解 ， 但 还 是 要 由 雇员 记录 语言 的 定义 来 决定 哪些 
标记 是 合法 的 、 这 些 标 记 代 表 什 么 意思 、 实 现 什 么 数据 类 型 等 。 没 有 这 些 标准 定义 的 标 
i, 程序 员 (或 计算 机 ) 就 不 能 确定 year 字段 中 的 1986 是 字符 串 、 整 数 、 非 符号 整数 还 
是 浮 点 数 。 

特定 的 基于 XML 语言 的 定义 由 大 纲 (schema) 给 出 ， 而 模式 是 一 个 说 明 怎 样 解释 数 
据 集 合 的 数据 库 术 语 。 现 在 有 很 多 定义 XML 的 大 纲 语 言 。 我 们 现在 把 关注 点 放 在 具有 主 
导 地 位 的 XML Schema 语言 上。 一 个 由 XML Schema 定义 的 大 纲 称 为 XML AW KL 
(XML Schema Definition，XSD) 。 下 面 是 一 个 用 于 employee. xml 的 XSD fi +, MAB 
说 ， 它 定义 了 示例 文档 应 符合 的 语言 。 这 些 代码 被 存放 在 一 个 名 为 employee. xsd 的 文 
Pe . | 
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<?xm] version="1.0"?> 
<schema xmins="http://www.w3.org/2001/XMLSchema"> 
<element name="employee"> 
<complexType> 
<sequence> 
<element name="name" type="string"/> 
<element name="title" type="string"/> 
<element name="id" type="string"/> 
<element name="hiredate"> 
<complexType> 
<sequence> 
<element name="day" type="integer"/> 
<element name="month" type="string"/> 
<element name="year" type="integer"/> 
</sequence> 
</complexType> 
</element> 
</sequence> 
</complexType> 
</element> 
</schema> 
这 个 XSD 看 起 来 有 点 像 我 们 的 例子 文档 employee. xml， 这 是 因为 XML KAA wh ze HE 
于 XML 的 语言 。 所 以 这 个 XSD 和 上 面 定 义 的 employee. xml 文档 有 着 很 明显 的 联系 。 


例如 : 


<element name="title" type="string"/> 


引号 内 的 标记 title 被 解释 为 一 个 字符 串 。 通 过 XSD AFF FPS Ae ET WE title 字段 
为 一 个 雇员 记录 的 第 二 个 元 素 的 结论 。 | 

AR [el FE IB SB» XML Schema 提供 了 多 种 数据 类 型 ， 如 字符 串 型 、 整 型 、 小 数 
型 和 布尔 型 。 就 像 在 employee. xsd 里 展示 的 一 样 ， 介 许 各 种 数据 类 型 的 组 合 和 舰 套 以 创 
建 复合 数据 类 型 。 所 以 ，XSD 定义 的 不 仅仅 是 语法 ， 还 定义 自己 的 抽象 数据 模型 。 一 个 符 
合 XSD 的 文档 表示 一 个 符合 特定 数据 模型 的 数据 集合 。 

XSD 的 意义 在 于 定义 了 一 个 抽象 数据 模型 ， 而 不 仅仅 是 语法 模型 ， 因 此 采用 XML 之 
外 的 表示 方式 的 数据 也 可 符合 该 模型 。 然 而 ，XML 作为 一 种 在 线 表示 形式 也 具有 一 些 缺 
点 : 相对 于 其 他 数据 表示 法 它 并 不 紧 资 ， 并 且 解 析 速 度 会 比较 慢 。 还 有 一 些 可 选择 的 采用 
二 进 制 表示 的 方法 。 当 W3C 做 出 了 高 效 XML 交换 (EXD 草案 的 时 候 ， 国 际 标准 化 组 织 
(SO) 已 经 发 表 了 一 个 名 为 “Fast Infoset” 的 草案 。 二 进 制 表 示 法 牺牲 了 可 读 性 ， 但 方 
便 了 更 大 程度 的 压缩 和 快速 解析 。 | 

XML 命名 空间 

XML 必须 处 理 的 一 个 普遍 问题 就 是 名 字 冲 突 8 。 之 所 以 会 出 现 这 个 问题 是 因为 模式 
语言 (比如 XML Schema) 支持 模块 化 ， 采 用 模块 化 是 考虑 到 一 个 模式 可 以 由 另外 一 个 模 
式 重 用 。 假 设 两 个 XSD 都 定义 了 一 个 标记 并 命名 为 “idNumber”。 或 许 一 个 XSD 使 用 这 











昌 ， 命 名 对 于 计算 机 科学 家 来 说 是 一 个 重要 而 常见 的 问题 。 我 们 将 在 9. 3. 1 节 中 考察 DNS (因特网 主机 的 命名 机 
制 ) 时 更 详细 地 讨论 命名 空间 。 a , 
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个 名 字 来 识别 公司 的 雇员 ， 而 另 一 个 XSD 使 用 这 个 名 字 来 识别 公司 所 拥有 的 笔记 本 电脑 。 
我 们 可 能 重用 这 两 个 XSD 到 第 三 个 XSD 中 用 来 描述 笔记 本 电脑 与 雇员 的 关联 。 但 如 果 想 
这 样 做 就 得 有 一 些 机 制 来 区 分 雇员 号 和 笔记 本 电脑 编号 。 

XML 用 来 解决 这 个 问题 的 方法 是 XML 命名 空间 (XML namespace), MA 2 s 间 是 名 
字 的 集合 。 每 个 XML 命名 空间 可 以 用 统一 资源 标识 符 (uniform resource identifier, 
URD 来 识别 。URI 的 具体 细节 会 在 9. 1. 2 节 中 介绍 ， 现 在 ， 我 们 需要 知道 的 是 这 是 一 种 
全 局 统一 的 标识 符 .9 简单 的 标记 名 字 (比如 idNumber) 只 要 在 命名 空间 中 是 唯一 的 就 可 
以 加 入 命名 空 a eek 六 名 空间 是 全 局 唯一 的 ， 而 且 简单 的 名 字 在 命名 空间 中 也 是 唯一 
的 ， 所 以 这 两 个 全 局 唯一 的 限定 的 名 字 (qualified name) 不 会 发 生 冲 突 。 

XSD 通常 使 用 如 下 的 命令 行 定 义 一 个 目标 命名 空间 (target namespace); 


targetNamespace="http://www.example.com/employee" 


EP, http://www. example. com/employee 是 一 个 URI， 标 识 一 个 假设 的 命名 空间 〈 简 
单 地 说 ， 我 们 的 XSD 例子 并 没有 说 明 一 个 目标 命名 空间 )。 所 有 XSD 中 定义 的 新 标记 都 
属于 这 个 命名 空间 。 

现在 ， 如 果 一 个 XSD 想 引 用 已 经 在 其 他 XSD 中 定义 的 名 字 ， 它 可 以 用 命名 空间 来 预 
eget ries a 一 个 文档 需要 在 使 用 命名 空间 时 分 派 一 个 短命 名 空间 

前 级 。 例 如 下 面 一 行 关联 emp 为 employee 的 命名 空间 前 级 : 


xmins:emp="http://www.example.com/employee" 


任何 命名 空间 标记 都 可 以 通过 emp 前 缀 来 进行 确认 ， 比 如 下 面 这 行 中 的 title, 


<emp:title>Head Bottle Washer</emp:title> 


emp: title 是 个 受 限 的 和 名字， 它 不 会 和 其 他 命名 空间 的 名 字 产 生 冲 突 。 

值得 一 提 的 是 ，XML 当前 应 用 非常 广泛 ， 从 Web 服务 中 的 RPC 样式 通信 到 办 公 工 
具 再 到 即时 消息 。 我 们 在 第 9 章 中 会 看 到 它 的 更 多 应 用 。 它 现在 无 疑 是 因特网 上 层 所 依靠 
的 核心 协议 之 一 。 





根据 多 方 估计 ， 包 括 音频 、 视 频 和 静态 图 像 的 多 媒体 数据 已 经 占据 了 因特网 的 大 部 分 
流量 。 这 是 一 个 相对 近期 的 发 展 一 一 现在 也 许 很 难 相信 ， 在 2005 年 以 前 是 没有 YouTube 
的 。 使 多 媒体 数据 在 互联 网 上 广泛 传播 的 部 分 原因 可 能 是 压缩 技术 的 进步 。 因 为 多 媒体 数 
据 大 多 是 靠 人 类 的 视觉 和 听觉 感官 来 接收 的 ， 然 后 经 过 人 类 大 脑 的 人 处理， 所 以 压缩 这 些 数 
据 要 面临 很 多 独特 的 挑战 。 你 试图 保留 最 重要 的 信息 ， 同 时 摆脱 任何 不 会 改善 视觉 或 听觉 
感官 体验 的 信息 。 因 此 ， 计算机 科学 和 人 类 感知 的 学 习 都 会 发 挥 作用 。 在 本 市 中 ， 我 们 来 
看 在 表述 和 压缩 多 媒体 数据 方面 人 们 所 做 出 的 主要 努力 。 

压缩 技术 的 使 用 当然 不 仅仅 局 限于 多 媒体 技术 上 一 一 例如 ， 在 互联 网 上 发 送 文件 或 者 
下 载 后 解压 缩 文件 时 ， 你 很 可 能 会 用 到 一 个 实用 的 压缩 工具 ， 像 zip 或 者 compress。 事 实 
证 明 用 于 压缩 数据 的 技术 都 是 无 损 的 (lossless)， 因 为 大 多 数 人 不 言 欢 文件 里 的 数据 于 


© HTTP URL 是 URI 的 特殊 形式 。 


失 ， 这 些 技术 也 可 以 作为 多 媒体 数据 压缩 方案 的 一 部 分 。 与 此 相反 ， 有 损 压 缩 (lossy 
compression) 技术 通常 应 用 在 多 媒体 数据 上 且 并 不 能 保证 接收 的 数据 与 发 送 的 数据 一 模 
一 样 。 如 上 面 所 提 到 的 ， 这 是 因为 多 媒体 数据 中 通常 只 包含 一 小 部 分 对 接收 方 有 用 的 数 
据 。 我 们 的 感官 和 大 脑 只 能 察觉 到 这 么 多 细 方 ， 我 们 很 擅长 在 看 或 者 听 的 时 候 目 动 填 补漏 
掉 的 内 容 ， 甚 至 能 自动 纠正 其 中 的 错误 。 有 损 算法 通 稼 会 得 到 比 其 他 算法 更 好 的 压缩 比 ， 
其 数值 比 无 损 压缩 好 一 个 数量 级 或 更 多 。 

为 了 了 解压 缩 技术 对 于 网 络 多 媒体 的 传播 有 多 人 么 重要 ， 考 虑 下 面 的 例子 。 一 个 1 080 
像素 X1 920 像素 的 高 清 电视 屏幕 ， 每 个 像素 有 24 位 的 颜色 信息 ， 所 以 每 帧 是 

1 080X1 920K 24=50Mb 

所 以 如 果 你 想 每 秒 发 送 24 帧 ， 那 就 会 超过 1Gbps。 这 比 大 多 数 因特网 用 户 上 网 的 速度 还 
要 快 很 多 。 相 比 之 下 ， 现 代 压 缩 技术 可 以 将 速度 降 到 10Mbps 左右 ， 得 到 足够 清晰 的 
HDTV 信号 ， 减 少 两 个 数量 级 并 满足 很 多 宽带 用 户 的 要 求 。 类 似 的 压缩 技术 可 以 应 用 于 
像 YouTube 视频 勇 辑 这 样 的 低 质 量 视频 ， 如 果 没 有 压缩 技术 使 所 有 有 趣 的 视频 适应 今天 
的 网 络 带宽 ， 它 就 不 会 拥有 现在 这 样 的 人 气 。 

近年 来 ， 压 缩 技术 应 用 到 多 媒体 上 已 经 形成 了 一 个 大 的 创新 领域 ,， 尤其 是 有 损 压 缩 。 
然而 无 损 压 缩 技术 也 发 挥 了 很 重要 的 作用 。 事 实 上 ， 大 多 数 有 损 压 缩 技术 包含 的 一 些 步 又 
是 无 损 的 ， 所 以 我 们 从 对 无 损 压 缩 的 概述 开始 讨论 。 


7.2.1 无 损 压 缩 技 术 


在 许多 方面 ， 压 缩 和 都 是 不 能 与 数据 编码 分 开 的 。 就 是 说 ， 在 考虑 如 何 用 一 组 比特 去 纺 
码 一 块 数据 时 ， 我 们 同时 要 考虑 如 何 实 现 用 最 少 的 比特 编码 数据 。 例 如 ， 如 果 有 一 个 由 A 
BZ 的 26 个 字母 组 成 的 数据 块 ， 假 设 所 有 符号 在 你 要 编码 的 数据 决 中 出 现 的 机 会 相等 ， 
那么 ， 最 好 用 5 个 比特 编码 每 个 符号 (因为 ”二 32 是 大 于 26 的 2 bie). Ril, 
如 果 符 号 R 出 现 的 次 数 为 50%， 那 么 使 用 比 编码 其 他 符号 更 少 的 比特 去 编码 符号 R 就 是 
一 个 很 好 的 主意 。 通 第 ， 如 采 你 知道 每 个 符号 出 现在 数据 中 的 相对 概率 ， 那么 ， 你 就 可 以 
用 某 种 方法 为 每 个 可 能 的 符号 指定 不 同 数量 的 比特 ， 即 用 最 少 的 比特 数 去 编码 给 定 的 数据 
块 。 这 束 是 蘑 夫 曼 编 码 (Huffman code) 的 基本 思想 ， 也 是 早期 在 数据 压缩 方面 最 重要 的 
人 

















什么 时 候 进 行 压缩 ? 


因为 网 络 传递 压缩 数据 比 传递 未 压缩 数据 用 的 时 间 少 ， 所 以 似乎 在 发 送 前 压缩 数据 总 
是 个 好 主意 。 然 而 ， 并 不 一 定 如 此 ,压缩 /解压 缩 算法 常常 是 需要 耗 时 的 计算 。 你 必须 考 
居 给 定 主机 处 理 器 的 速度 和 网 络 带 宽 等 因素 ， 花 时 间 压 缩 / 解 压缩 数据 是 不 是 值得 。 特 别 . 
是 ， 如 果 B。 是 数据 通过 (顺序 地 ) 压缩 程序 /解压 缩 程序 的 平均 带宽 ，B。 是 未 压缩 数据 
的 网 络 带宽 (包括 网 络 处 理 耗 费 的 带宽 )，7 是 平均 压缩 率 ， 而 且 ， 如 果 我 们 假设 在 任何 传 
输 前 ， 所 有 数据 都 是 压缩 的 ， 那 么 发 送 xz 个 字 节 未 压缩 数据 所 用 时 间 是 

x/ B, 
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这 样 ， 如 果 
x/Be+2x/(rB,)<x/B, 
压缩 是 有 益 的 ， 它 等 价 于 
B.>r/(r—1) XB, 
例如 ， 压 缩 率 为 2，B。 必 须 大 于 2X Bs 压缩 才 有 意义 。 

对 于 许多 压缩 算法 ， 开 始 传输 前 不 要 求 压缩 整个 数据 集合 (如果 要 求 这 样 做 的 话 ， 视 
频 会 议 就 是 不 可 能 的 ) ， 但 首先 必须 收集 一 定量 的 数据 (也许 是 几 个 视频 帧 )。 在 这 种 情形 
To “填充 管道 ”所 需 的 数据 总 量 就 是 上 述 方程 中 并 的 值 。 | 

当然 ， 讨 论 有 损 压 缩 算 法 时 ， 处 理 资源 并 非 唯一 的 因素 。 对 于 不 同 的 应 用 程序 ， 用 户 
非常 愿意 在 带宽 RER) 和 压缩 导致 的 信息 丢失 程度 之 间 和 进行 不 同 的 权衡 。 例 如 ， 放 射 
线 学 者 看 乳房 久光 片 时 不 可 能 容忍 图 像 质量 有 任何 重要 的 损失 ,但 他 却 可 能 会 容忍 在 网 上 
等 几 小 时 检索 图 像 。 相 反 ， 多 数 人 显然 都 能 容忍 电话 交换 机 中 不 可 靠 的 音频 质量 以 便 能 在 
全 球 范围 内 自由 地 拨打 电话 ( 边 开 车 边 打 电话 的 质量 就 更 不 用 说 了 )。 


1. 行程 编码 

行程 编码 (Run Length Encoding, RLE) 是 一 种 极其 简单 的 压缩 技术 。 其 思想 是 对 
连续 出 现 的 一 个 符号 ， 只 用 此 符号 的 一 个 副本 加 上 符 导 出 现 的 次 数 来 代替 ， 所 以 起 名 为 行 
程 。 例 如 ，AAABBCDDDD 上 串 就 被 编码 为 3A2B1C4D。 

事实 证 明 ，RLE 对 于 压缩 一 些 类 型 的 图 像 很 有 用 。 它 可 以 通过 比较 相 邻 的 像素 值 ， 
然后 只 编码 有 变化 的 符号 来 压缩 数字 图 像 。 对 于 有 很 大 相似 区 域 的 图 像 来 说 ， 这 个 技术 是 
相当 有 效 的 。 例 如 ， 对 扫描 的 文本 图 像 ， 它 的 效果 很 显著 ， 能 达到 压缩 率 为 8 : 1 的 量 级 。 
RLE 对 这 样 的 文件 处 理 很 有 效 是 因为 这 种 文件 常常 包含 大 量 可 以 被 删除 的 空白 。 实 际 上 ， 
RLE 过 去 是 用 来 发 送 传真 的 关键 压缩 算法 。 然 而 ,对 局 部 变化 程度 很 小 的 图 像 ， 其 压缩 
实际 上 会 明显 增加 图 像 的 字 节 数 ， 因 为 ， 当 一 个 符号 不 重复 出 现时 ， 要 用 两 个 字 节 来 表示 
单个 符号 。 

2. 差分 脉 码 调制 | 

5 —7S fay FAY Jc tat JE 9g BE FE EK AGIA HH] (Differential Pulse Code Modulation, 
DPCM) 。 它 的 思想 是 首先 输出 一 个 参考 符号 ， 然 后 输出 数据 中 的 每 个 符号 与 参考 符号 的 
差 。 例 如 ， 使 用 符号 A 作为 参考 符号 ， 字符 串 AAABBCDDDD 将 编码 为 A0001123333, 
因为 A 和 参考 符号 相同 ，B 与 参考 符号 的 差 为 1， 依次 类 推 。 注 意 这 个 简单 的 例子 并 不 能 
说 明 DPCM 的 真正 好 处 ， 即 当 差 较 小 时 ， 它 们 能 用 比 符号 本 映 更 少 的 比特 去 编码 。 在 这 
个 例子 中 ， 差 的 范围 为 0~3， 每 个 符号 用 两 个 比特 表示 ， 而 完全 表示 这 些 字 符 则 需要 用 7 
或 8 个 比特 。 一 旦 差 变 的 很 大 ， 就 选择 一 个 新 的 参考 符号 。 

对 大 多 数 数字 图 像 来 说 ，DPCM 比 RLE 效果 更 好 ， 因 为 它 利用 相 邻 像素 值 通常 是 相 
似 的 这 个 事实 。 由 于 这 种 关系 ， 相 邻 像素 值 之 间 差 分 的 动态 范围 可 能 远 比 原始 图 像 的 动态 
范围 小 ， 而 且 这 个 范围 因此 能 用 更 少 的 比特 来 表示 。 使 用 DPCM， 我 们 已 经 测量 到 对 数字 
图 像 压 缩 率 为 1. 5 : 1。DPCM 也 适用 于 音频 ， 因 为 相 邻 的 音频 波形 在 值 上 可 能 是 相近 的 。 

另 一 种 略 有 差别 的 方法 称 为 delta 编码 (delta encoding)， 简 单 地 把 一 个 符号 编码 为 与 
前 一 符号 的 差 。 比 如 ，AAABBCDDDD 可 以 表示 为 A001011000。 注 意 ，delta 编码 很 适合 


编码 相 邻 像素 相似 的 图 像 。delta 编码 后 还 可 以 再 进行 RLE (行程 编码 )， 因 为 如 果 每 个 符 
号 后 都 有 许多 类 似 的 符号 ， 我 们 就 会 找到 一 长 串 0。 

3. EF SHWE 

我 们 讨论 的 最 后 一 个 无 损 压 缩 法 是 基于 字典 的 方法 ， 其 中 最 著名 的 是 Lempel-Ziv 
(LZ) 压缩 算法 。Unix 的 compress 和 gzip 命令 使 用 LZ 算法 的 一 个 变种 。 

基于 字典 的 压缩 算法 ， 其 思想 是 为 你 希望 在 数据 中 查找 的 可 变 长 字符 串 (把 它们 看 作 
常用 短语 ) 建 一 个 字典 〈 表 ) ， 当 这 些 串 出 现在 数据 中 时 ， 用 相应 的 字典 索引 替代 每 个 串 。 
例如 ， 在 文本 数据 中 不 是 处 理 单独 的 字符 ， 你 可 以 把 每 个 词 作 为 一 个 串 来 对 待 并 为 每 个 词 
输出 其 在 该 字典 的 索引 。 下 面 举 个 例子 详细 说 明 ， “compression” 一 词 在 特定 的 词典 中 的 
索引 为 41978， 因 为 在 /usr/share/dict/words 文件 中 它 是 第 4978 个 词 。 要 压缩 一 个 文本 的 
正文 ， 每 次 当 这 个 串 出 现时 ， 就 会 用 4978 来 代替 。 由 于 在 这 个 特定 的 字典 中 只 有 25 000 
多 个 词 ， 需 用 15 个 比特 来 编码 这 个 索引 ， 意 味 着 串 “compression” 可 以 用 15 个 比特 而 不 
是 7 比特 ASCII 所 要 求 的 77 比特 来 表示 。 这 样 压缩 率 为 5 1! 在 男 一 个 数据 点 上 ， 当 我 
们 把 压缩 命令 应 用 到 本 书 所 描述 的 那些 协议 的 源 代码 时 ， 我 们 可 能 会 得 到 2 : 1 的 压缩 率 。 

当然 ， 剩 下 的 问题 是 字典 从 哪里 来 ， 一 个 选择 是 定义 静态 字典 ， 最 好 是 为 要 压缩 的 数 
据 定制 字典 。LZ 压缩 法 使 用 的 更 一 般 的 解决 方案 ， 即 定义 基于 压缩 数据 内 容 的 自 适应 字 
典 。 然 而 ， 在 这 种 情况 下 ， 构 造 的 字典 在 压缩 期 间 必 须 和 数据 一 起 发 送 ， 以 便 算法 的 解压 
部 分 能 完成 它 的 工作 。 如 何 正 确 地 建立 自 适应 字典 已 经 成 为 一 个 广泛 的 研究 课题 ， 在 这 一 
章 的 结尾 我 们 讨论 关于 这 个 主题 的 重要 文章 。 














7.2.2 图 像 表示 和 压缩 (GIF, JPEG) 


在 过 去 的 几 年 中 数字 图 像 的 使 用 增加 了 ， 这 种 增加 是 由 于 图 形 显 示 器 的 发 明 而 非 高 速 
网 络 ， 对 用 于 数字 图 像 数据 的 标准 表示 格式 和 压缩 算法 的 需求 也 越 来 越 紧 迫 了 。 为 了 满足 
这 个 需求 ，ISO 定义 了 一 个 称 为 JPEG 的 数字 图 像 格 式 ， 其 名 称 来 自 设计 它 的 联合 图 像 专 
家 组 (Joint Photographic Experts Group, JPEG), JPEG 中 的 “Joint” 代 表 它 是 ISO/ 
ITU 联合 的 成 果 。 如 今 JPEG 格式 是 静态 图 片 中 应 用 最 广泛 的 格式 。 这 种 格式 定义 的 核心 
是 一 个 压缩 算法 ， 我 们 下 面 会 描述 它 。 很 多 在 JPEG 中 应 用 的 技术 也 在 MPEG 中 应 用 ， 
即 由 运动 图 像 专家 组 (MPEC) 创建 的 一 组 视频 压缩 和 传送 标准 。 

在 深入 研究 JPEG 格式 的 细节 之 前 ， 我 们 注意 到 ， 从 数字 图 像 到 可 以 被 接收 者 接受 的 
可 传送 、 可 解压 缩 、 可 正确 显示 的 压缩 图 像 之 间 有 很 多 的 步 驰 。 你 可 能 知道 数字 图 像 是 由 
像素 组 成 的 (因此 ， 在 数码 相机 的 广告 中 引入 兆 像素 )， 每 个 像素 代表 二 维 网 格 中 的 一 个 
位 置 ， 以 此 来 组 成 图 像 。 对 于 彩色 图 像 ， 每 个 像素 有 一 些 代表 一 个 颜色 的 数值 。 有 很 多 方 
式 来 表示 颜色 ， 称 为 颜色 空间 (color space)， 大 多 数 人 都 熟悉 的 一 个 颜色 空间 是 RGB 
( 红 ， 绿 ， 蓝 ) 。 你 可 以 将 颜色 看 成 一 个 三 维 量 ， 通 过 红 、 绿 、 蓝 的 不 同 数值 而 合成 出 任何 
颜色 。 在 一 个 三 维 空间 中 ， 有 很 多 不 同 的 有 效 的 方式 来 表述 一 个 给 定 的 点 〈 例 如 笛 卡 尔 坐 
标 和 极 坐标 ) 。. 同样 ， 很 多 方法 用 三 个 数量 来 描述 一 个 颜色 ， 最 常 蔡 代 RGB 的 是 YUV, 
Y 是 亮度 ， 即 像素 的 整体 亮度 ，U 和 V 包含 色 度 或 者 颜色 信息 。 容 易 混 淆 的 是 ， 也 有 很 
多 YUV 颜色 空间 的 不 同 变 体 。 下 面 会 更 详细 地 讲述 这 个 方面 。 | 

这 个 讨论 的 意义 是 彩色 图 像 (静态 或 者 动态 的 编码 和 传送 需要 颜色 空间 两 端 之 间 达 
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成 协议 。 否 则 ， 你 最 后 肯 
致 (也许 只 是 使 用 的 特定 
的 一 部 分 。 | 

让 我 们 看 看 GIF (Graphical Interchange Format) 格式 的 例子 。GIF 使 用 RGB 颜色 空 
间 ， 用 8 位 代表 颜色 三 维 变量 中 的 一 个 变量 ， 一 共 需 要 24 位 。GIF 首先 将 24 位 彩色 图 片 
降 到 8 位 彩色 图 片 ， 而 不 是 每 个 像素 24 位 。 这 是 通过 识别 一 幅 图 片 中 已 用 到 的 颜色 来 实 
现 的 ， 颜 色 总 量 通常 都 会 大 大 小 于 22 这 个 值 ， 然 后 再 从 256 种 颜色 中 挑选 最 接近 图 片 中 
用 到 的 颜色 。 也 许 会 多 于 256 种 颜色 ， 然 而 ， 诀 窍 就 是 在 256 种 颜色 中 挑选 的 时 候 不 要 让 
颜色 失真 过 多 ， 这 样 颜色 中 的 像素 就 不 会 改变 太 大 。 

256 种 颜色 存储 在 一 个 表 里 ， 这 个 表 可 以 用 一 个 8 位 的 数 索 引 ， 这 样 每 个 像素 的 值 都 
对 应 一 个 适当 的 索引 。 注 意 这 是 一 个 针对 任何 多 于 256 种 颜色 的 图 片 的 有 损 压缩 的 例子 。 
然后 ，GIF 在 结果 上 运行 一 个 LZ 变量 ， 将 常见 的 像素 作为 组 成 字典 的 字符 串 进行 处 理 ， 
这 是 个 无 损 的 操作 。 通 过 这 种 方法 ，GIF 有 时 可 以 达到 10 : 1 的 压缩 比 ， 不 过 只 在 图 像 包 
含 相对 比较 少 的 离散 颜色 的 情况 下 。 例 如 一 个 图 标 ，GIF 就 可 以 处 理 得 很 好 。 而 自然 场景 
的 图 像 通常 包含 连续 光谱 上 的 颜色 ， 用 GIF 就 不 能 压缩 到 这 个 压缩 比 了 。 在 某 些 情况 下 ， 
对 于 GIF 引起 的 颜色 损失 从 而 导致 的 扭曲 ， 人 眼 也 不 太 能 察觉 出 来 。 

JPEG 格式 更 适合 摄影 图 像 ， 因 此 我 们 以 创建 它 的 组 织 为 之 命名 。JPEG 不 会 像 GIF 
一 样 减少 颜色 的 量 。 相 反 ，JPEG 首先 将 RGB 颜色 (就 是 通常 从 数码 相机 中 得 到 的 颜色 ) 
转换 到 YUV 颜色 空间 ， 原 因 与 眼睛 感知 图 像 的 方式 有 关 。 眼 睛 里 有 亮度 的 接收 器 ， 并 且 
对 每 种 颜色 有 单独 的 接收 器 。 因 为 我 们 非常 善于 感受 亮度 的 变化 ， 所 以 使 用 更 多 数据 位 传 
输 亮度 信息 是 很 有 意义 的 。 既 然 YUV 中 的 Y 表示 像素 中 的 整体 亮度 信息 ， 因 此 我 们 就 可 
以 单独 压缩 这 个 值 ， 而 不 必 过 分 关注 其 他 两 个 〈 色 度 ) 值 。 

如 上 所 述 ，YUV 和 RGB 是 用 于 描述 三 维 空间 中 一 个 点 的 两 种 可 互 换 的 方式 ， 而 且 使 
用 一 个 线性 方程 从 一 个 颜色 空间 转换 到 另 一 个 颜色 空间 也 是 可 能 的 。YUV 颜色 空间 通常 
用 来 表示 数字 图 像 ， 方 程 是 : 


定 会 得 到 与 发 送 方 不 同 的 颜色 。 因 此 ， 在 颜色 空间 定义 上 达成 一 
命名 空间 的 一 种 沟通 的 方式 ) 是 任何 图 像 格式 或 者 视频 格式 定义 





Y=0. 299R+0. 587G+0. 114B 

U=(B— Y) X0. 565 

V=(R—-Y) X0. 713 
这 里 常量 的 准确 值 不 重要 ， 只 要 编码 器 和 解码 器 在 此 取得 一 致 即 可 。 (为 了 显示 图 像 ， 解 
码 器 必须 要 应 用 逆转 换 来 恢复 RGB 分 量 。) 然而， 常量 就 是 根据 人 类 感知 的 颜色 仔细 挑选 
出 来 的 。 你 可 以 看 到 站 GE) 是 红 、 绿 、 蓝 各 部 分 的 总 和 ， 而 U 和 V 分 量 表示 颜色 的 
差异 。U 表示 平均 亮度 和 蓝 色 亮度 的 差异 ，V 表示 平均 亮度 和 红色 亮度 的 差异 。 你 可 能 注 
意 到 ， 将 R、G、B 设置 成 它们 的 最 大 值 〈8 位 表示 255)， 会 使 得 Y 的 值 等 于 255， 而 此 
时 U 和 YV 都 是 0。 也 就 是 在 RGB 颜色 空间 中 全 白 像 素 是 (255, 255, 255), Æ YUV Bi 
6,23 [AJ FASE (255, 0, 0). 

一 旦 图 像 转换 成 YUV 颜色 空间 ， 我 们 就 可 以 将 颜色 的 三 个 部 分 单独 压缩 。 我 们 想 将 

U 和 V 部 分 压缩 得 更 小 ， 因 为 人 腿 对 它们 比较 不 敏感 。 压 缩 U 和 V 的 一 个 方法 就 是 对 它 
们 进行 下 采样 〈subsample) 。 下 采样 的 基本 思想 就 是 取出 一 组 相 邻 的 像素 值 ， 计 算 这 组 像 
素 的 U 或 V 平 均值 ， 然 后 用 这 个 值 代替 这 组 里 的 所 有 像素 值 进行 传输 。 图 7-11 说 明了 这 
一 点 。 亮 度 (Y) 没有 下 采样 ， 所 以 所 有 像素 的 Y 值 都 会 被 传输 ， 显 示 在 16 X16 像素 网 
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格 的 左面 。 而 在 U 和 V 的 情况 下 ， 我 们 将 四 个 相 邻 的 像素 设 成 一 组 ， 计 算 这 一 组 的 平均 
值 ， 然 后 进行 传输 。 因 此 ， 我 们 最 终 是 传输 一 个 8x8 的 U 和 V 的 像 系 网 格 。 因 此 ， 在 这 
个 例子 中 ， 对 于 每 四 个 像素 ， 我 们 传输 6 个 值 (4 个 Y 值 ,1 个 U 值 ，1 个 V 值 ) 而 不 是 
最 开始 的 12 个 值 〈 每 个 部 分 各 4 个 值 )， 这 样 可 以 减少 50% 的 信息 。 


Y U V 





图 7-11 对 图 像 中 的 U 值 和 YV 值 进 行 下 采样 


值得 注意 的 是 ， 下 采样 的 程度 可 以 适当 加 深 ， 相 应 地 会 增加 压缩 比 和 降低 图 像 质 量 。 在 
这 里 所 示 的 下 采样 方法 中 ， 色 度 是 在 水 平和 垂直 两 个 方向 进行 两 倍 采样 〈 记 为 4:2:0)， 
正好 可 以 匹配 常用 于 JPEG 和 MPEG 的 方法 。 | 

一 旦 下 采样 完成 ， 我 们 就 有 三 个 网 格 的 像素 要 人 处理， 每 一 个 都 可 以 单独 处 理 。 如 
图 7-12 所 示 ，JPEG 压缩 分 三 个 阶段 完成 。 在 压缩 端 ， 以 每 次 一 个 8X8 数据 块 让 图 像 经 
过 这 三 个 阶段 。 第 一 阶段 对 这 个 数据 块 进行 离散 余弦 变换 (Discrete Cosine Transform, 
DCT). 。 如 果 你 把 图 像 看 作 空 间 域 中 的 一 个 信号 ， 那 么 DCT 把 这 个 信号 变换 成 空间 频率 
(spatial frequency) 域 中 一 个 等 价 的 信号 。 这 是 一 个 无 损 运 算 ， 但 必须 在 进行 下 一 步 有 损 
变换 前 完成 。 在 DCT 之 后 ， 第 二 阶段 将 产生 的 信号 进行 量化 ， 并 且 ， 在 量化 过 程 中 丢失 
信号 所 包含 的 最 低 有 效 信 息 。 第 三 阶段 编码 出 最 终 的 结果 ， 但 在 编码 过 程 中 ， 为 前 两 个 阶 
段 完 成 的 有 损 压 缩 增添 一 个 无 损 压 缩 的 成 分 。 解 压 同 样 包 含 这 三 个 阶段 ， 但 顺序 相反 。 





图 7-12 JPEG 压缩 框图 


1. DCT 阶段 

DCT 是 一 种 与 快速 傅 里 时 变换 (Fast Fourier Transform, FFT) 紧密 相关 的 转换 。 
EM 8X8 像素 值 矩阵 为 输入 ， 并 输出 一 个 8X8 频率 系数 矩阵 。 你 可 以 把 输入 矩阵 看 作 定 
义 在 二 维 空间 (x 和 y) 的 一 个 64 点 信号 ，DCT 把 这 个 信和 号 分 割 成 64 个 空间 频率 。 为 了 
获得 空间 频率 的 直观 感觉 ， 想 象 你 自己 沿 x 方向 横着 移 过 一 张 图 片 的 过 程 。 你 会 看 见 每 个 
像素 值 按 x 的 某 个 函数 变化 。 如 果 随 着 z 的 增加 这 个 值 慢 慢 变化 ， 它 就 有 较 低 的 空间 频 
率 ， 然 而 ， 如 果 它 的 值 迅速 地 变化 ， 它 就 有 较 高 的 空间 频率 。 所 以 低频 对 应 图 片 总 体 特 
性 ， 而 高 频 对 应 图 片 更 细微 的 变化 。DCT 思想 就 是 要 分 离 那些 观看 图 像 所 必需 的 总 体 特 
性 与 不 太 必要 的 且 有 些 情况 下 人 眼 几乎 感觉 不 到 的 细微 特性 。 
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解压 缩 期 间 完 成 DCT 的 道 过 程 ，DCT 由 以 下 公式 来 定义 ， 


N-1 N 一 1 
ee ee | (2x 1)in (2y + 1)jx 
DCT(i,7) a o xel(x,y) X cos) “HSI Jeos| “228 l 
N-i N= 
, 加 ; a Ctt Dir (y+ lin 
Cm ee AGE 1/10 AAY AI 
pixel(x,y) = D2 PENG j) X cos| aN eos} 7 | 


Ea xr=0 
Clr) = <2 
| i ec oU 
其 中 pixel(z,y) 是 被 压缩 的 8X8 块 中 位 置 为 (z，y) 的 像素 的 灰 度 值 ， 此 时 N=8. 

第 一 个 频率 系数 在 输出 矩阵 的 《0，0) 位 置 ， 称 为 DC 系数 (DC coefficient) 。 我 们 
可 以 很 直观 地 看 出 ，DC 系数 是 64 个 输入 像素 的 平均 值 。 输 出 矩阵 的 其 他 63 个 元 素 称 为 
AC 系数 《AC coefficient)。 它 们 为 这 个 平均 值 加 上 较 高 的 空间 频率 信息 。 这 样 ， 当 从 第 
一 个 频率 系数 向 前 走 到 第 64 个 频率 系数 时 ， 你 就 从 低频 信息 移 到 高 频 信息 ， 图 像 从 粗 陋 
变 得 越 来 越 细腻 。 这 些 高 频 系 数 对 感 党 到 的 图 像 质量 越 来 越 不 重要 ，JPEG 的 第 二 个 阶段 
是 判断 去 掉 哪 一 部 分 系数 。 

2. 量化 阶段 

E JPEG 的 第 二 个 阶段 ， 压 缩 是 有 损 的 。DCT 本 身 不 丢失 信息 ， 它 只 是 把 图 像 变 换 成 
更 容易 知道 什么 信息 可 以 删除 的 形式 。 (尽管 本 身 是 无 损 的 ， 但 由 于 使 用 定点 运算 当然 会 
有 一 些 精 度 的 损失 .) 量化 是 容易 理解 的 : 它 只 是 丢弃 频率 系数 中 可 忽略 的 那些 比特 。 

为 了 清楚 量化 阶段 是 怎样 完成 的 ， 可 以 想象 你 要 压缩 小 于 100 的 某 些 数字 ， 例 如 ， 
45、98、23、66 和 7。 如果 你 判定 将 这 些 数 截 断 成 最 接近 的 10 的 倍数 就 足以 达到 目的 ， 
那么 你 可 以 使 用 整 型 算术 用 量程 10 除 每 个 数 ， 得 出 4、9、2、6 和 0。 每 一 个 这 样 的 数 可 
以 用 4 个 比特 编码 而 不 像 原始 数据 需要 7 个 比特 编码 。 

就 像 下 面 公式 中 给 出 的 那样 ，JPEG 使 用 一 个 量化 表 给 出 用 于 每 个 系数 的 量程 ， 而 不 
是 对 所 有 64 个 系数 使 用 同样 的 量程 。 你 可 以 把 这 个 表 (Quantum) 看 成 一 个 参数 ， 对 它 
进行 设置 可 以 控制 丢失 的 信息 量 ， 相 应 地 控制 
压缩 比 。 实 际 上 ，JPEG 标准 声明 了 在 压缩 数字 
图 像 中 已 证 明 是 有 将 的 一 个 量化 表 集 合 ， 示 7-1 
是 一 个 量化 表 的 例子 。 在 这 样 的 表 中 ， 较 低 的 
系数 有 接近 1 的 量程 (意味 着 几乎 没有 低频 信 


表 7-1 JPEG 量化 表示 例 


3 5 7 9 Il 13 15 17 
5 7 9 11 13 15 17 19 
7 9 11 13 15 17 19 21 
9 11 13 15 17 19 21 23 


Quantum = 
息 于 失 )， 而 高 系数 有 和 较 大 的 从 (意味 着 更 多 高 Bee Suge ai EG eh nee eee ee 
a ee i 13. 15 17 19 21 23 25 27 
频 信 息 丢 失 )。 值 得 注意 的 是 ， 由 于 这 样 的 量化 ee a ee 
表 ， 许 多 高 频 系 数量 化 后 最 终 被 置 为 0， 这 为 它 17 19 21 23 25 27 29 31 
们 进入 第 三 阶段 进一步 压缩 做 好 准备 。 
基本 量化 方程 为 


QuantizedValue(z,7) =IntegerRound(DCT(@,7) /Quantum(z,7)) 
EN 中 
Ea 5] 4x20 


IntegerRound(zx) = Ley cela 
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.解压 缩 则 简单 地 定义 为 
DCT (G,7) = QuantizedValue(i,7) X Quantum(@ 7) 

例如 ， 假 设 某 个 特定 块 的 DC 系数 CAP DCT (CO, 0) SF 25, MBA, MK 7-1 量化 

这 个 值 的 结果 为 
”1125/3 十 0.5 J=8 
解压 缩 过 程 中 ， 这 个 系数 被 恢复 为 
8X 3=24 

3. 编码 阶段 

在 JPEG 最 后 的 阶段 ， 用 一 种 压缩 格式 编码 量化 的 频率 系数 。 这 就 导致 了 为 一 次 压 
缩 ， 但 这 次 压缩 是 无 损 的 。DC 系数 从 (0，0) 位 置 开 始 ， 如 图 7-13 所 示 ， 各 个 系数 按 Z 
字形 进行 处 理 。 沿 着 这 个 Z 字形 使 用 行程 编码 格式 ，RLE 只 应 pe 
用 于 0 系数， 它 的 效果 显著 ， 因 为 后 面 的 许多 系数 都 是 0。 单 ”一 zt 
个 系数 值 则 用 赫 夫 曼 码 来 编码 。 JPEG 标准 允许 使 用 算术 编码 
代替 赫 夫 曼 码 。) 

另外 ， 因 为 DC 系数 包含 来 自 源 图 像 8X8 块 的 很 大 比例 的 
言 息 ， 而 且 图 像 从 一 块 到 另 一 块 变化 较 缓 慢 ， 因 此 每 个 DC KR 
数 编码 成 与 前 一 个 DC 系数 的 差 。 这 是 7. 2. 1 节 介 绍 的 delta 编 
码 方法 。 | 
JPEG 包含 许多 变数 ， 用 来 控制 压缩 率 和 逼真 度 。 比 如 ， 图 7-13 量化 频率 系数 
通过 使 用 不 同 的 量化 表 可 以 完成 这 些 工 作 。 这 些 变数 ， 再 加 上 的 Z FEA 
不 同 图 像 有 不 同 特性 的 因素 ， 因 此 JPEG 不 可 能 达到 任何 精度 的 压缩 率 。30 : 1 的 压缩 比 
是 比较 常见 的 ， 更 高 的 压缩 比 当 然 也 有 可 能 ， 但 是 在 更 高 的 压缩 比 中 构件 的 失真 Carti- 
fact) 〈 由 于 压缩 而 明显 失真 ) 会 更 严重 。 





7.2.3 视频 压缩 (MPEG) 


现在 我 们 把 注意 力 转 到 MPEG 格式 上 ， 其 名 称 来 自 定 义 它 的 运动 图 像 专家 组 (Mov- 
ing Picture Experts Group, MPEG). 。 钥 略 地 说 ， 运 动 图 像 〈 即 视频 ) 是 简单 地 以 某 个 速 
率 连 续 显 示 的 静止 图 像 〈 也 称 为 帧 (rame) 或 图 片 (picture) ) 。 每 个 帧 可 以 使 用 与 JPEG 
中 用 到 的 基于 DCT 的 相同 技术 来 压缩 。 当 然 这 个 问题 不 能 到 此 为 止 ， 因 为 它 不 能 删除 视 
频 序列 中 帧 到 帧 的 元 余 。 例 如 ， 在 一 个 场景 中 ， 如 果 没 有 许多 动作 ， 两 个 连续 的 视频 帧 会 
包含 几乎 相同 的 信息 ， 所 以 没 必要 发 送 两 次 相同 的 信息 。 即 使 有 动作 的 时 候 ， 由 于 运动 对 
象 从 一 帧 到 下 一 帧 可 能 没有 变化 ， 也 会 有 大 量 的 元 余 信息 ; 有些 时 候 ， 只 是 位 置 发 生 了 变 
化 。MPEG 考虑 到 了 帧 之 间 的 这 种 宛 余 。 同 时 ，MPEG 还 为 伴随 视频 的 音频 信号 定义 一 
个 编码 机 制 ， 但 在 这 一 节 我 们 只 考虑 MPEG 的 视频 方面 。 

1. 帧 类 型 | 

MPEG 接收 一 个 视频 帧 序列 作为 输入 ， 然 后 将 其 压缩 成 三 种 类 型 的 帧 ， 分 别称 为 工 帆 
(内 部 图 像 )、P 帧 〈 预 测 图 像 )》 和 B 帧 〈 双 向 预测 图 像 ) 。 每 个 输入 的 帧 被 压缩 成 这 三 种 
类 型 之 一 。I 帧 可 以 作为 参考 帧 ， 它 们 是 独立 的 ， 既 不 依赖 前 面 的 帧 也 不 依赖 后 面 的 帧 。 
粗略 地 说 ,I 帧 是 视频 源 对 应 帧 的 JPEG 压缩 形式 。P 帧 和 B 帧 不 是 独立 的 ， 它 们 定义 了 
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相对 某 个 参考 帧 的 差 。 更 明确 地 说 ，P 帧 说 明 与 前 一 个 I 帧 的 差 ， 而 B 帧 给 出 前 一 个 1 帧 
或 P 帧 与 后 一 个 1 帧 或 P 帧 之 间 的 插值 ， 

图 7-14 说 明 一 个 有 7 个 视频 帧 的 序列 ， 由 MPEG 压缩 后 ， 产 生 一 个 由 I 帧 、P 帧 和 B 
帧 组 成 的 序列 。 两 个 I 帧 是 独立 的 ， 可 以 在 接收 方 解 压缩 ， 不 依赖 任何 其 他 帧 。P 帧 依赖 
前 一 个 工 巅 ， 只 有 在 前 一 个 工 帆 到达 后 ， 它 才能 在 接收 方 被 解压 缩 。 每 个 也 帧 既 依 赖 前 面 
AJ IMEE P 帧 又 依赖 后 面 的 I 帧 或 P 帧 。MPEG 在 解压 缩 B 帧 重 现 原 始 视频 帧 之 前 ， 这 些 
参考 帧 必须 到 达 接 收 方 。 


veda ff 


| MPEGE 





Al 7-14 MPEG FÆR IW, PWA B WEA 


| 值得 注意 是 ， 因 为 每 个 B 帧 依赖 序列 中 的 后 面 一 帧 ， 因 而 压缩 帧 不 按 顺 序 传输 。 图 7- 

13 中 所 示 的 IBBPBBI 顺序 就 变 成 IPBBIBB 的 传输 顺序 。 此 外 ，MPEG REX IW P 帧 
和 了 B 帧 的 比率 ， 这 个 比率 可 能 依 压 缩 要 求 及 图 像 的 质量 而 变 。 例 如 ， 若 只 允许 传 I 帧 ， 这 
就 类 似 于 使 用 JPEG 压缩 视频 图 像 。 

与 前 面 JPEG 的 讨论 不 同 ， 下 面 我 们 要 集中 讨论 MPEG 流 的 解码 (decoding). EM 
描述 稍微 容易 一 些 ， 也 是 当今 网 络 系统 中 最 常 执行 的 操作 ， 这 是 由 于 MPEG 的 编码 很 费 
时 ， 以 至 于 它 通常 是 脱 机 完成 的 〈 即 不 是 实时 的 )。 人 例如， 在 视频 点 播 系统 中 ， 视 频 提 前 
被 编码 并 储存 在 磁盘 上 。 当 点 播 者 想 要 观看 视频 时 ，MPEG 流 就 被 传送 到 点 播 者 的 计算 机 
上 ， 在 这 合计 算 机 上 实时 解码 并 显示 。 

让 我们 更 仔细 地 看 看 三 种 类 型 的 帧 。 如 上 所 述 ， 工 顶 近 似 等 于 源 帧 的 JPEG EAER. 
其 主要 区 别 是 MPEG 以 16X16 #38 (macroblock) 为 单位 工作 。 对 一 个 用 YUV 表示 的 
彩色 视频 ， 每 个 宏 块 的 U 和 V 分 量 下 采样 变 成 8X8 ER. TL, ARP RL 2x2 
的 子 块 由 一 个 U 值 和 一 个 V 值 给 出 ， 即 4 个 像素 值 的 平均 值 。 该 子 块 仍然 有 4 个 了 值 。 
能 够 这 样 做 是 因为 人 对 颜色 不 如 对 亮度 敏感 ， 所 以 不 太 精 确 地 传输 U 和 V 分 量 对 人 们 观 
看 图 像 不 会 有 明显 的 干扰 。 帆 和 宏 块 之 则 的 对 应 关系 在 图 7-15 中 给 出 。 

P 帧 和 B 帧 也 是 以 宏 块 为 单位 处 理 的 。 直 觉 上 ， 我 们 可 以 看 到 每 一 宏 块 携带 的 信息 捕 
提 了 视频 图 像 的 动作 ， 也 就 是 说 ， 它 显示 宏 块 相对 参考 帧 在 什么 方向 ,移动 了 多 远 。 下 面 
描述 解压 缩 期 间 如 何 用 B 帧 重 构 一 个 赎 ， 也 可 以 用 类 似 的 方法 处 理 P 帧 ， 只 不 过 PP 帧 仪 依 
赖 一 个 参考 帧 而 不 是 两 个 参考 帧 。 

ETER B 帧 如 何 解压 缩 之 前 ， 我 们 首先 指出 ， 在 B 帧 中 的 每 一 宏 块 没有 必要 像 上 面 提 
出 的 那样 相对 前 一 个 和 后 一 个 帧 都 做 定义 ， 可 以 只 相对 前 一 帧 或 后 一 帧 来 说 明 。 事 实 上 ， 
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图 7-15 每 个 帧 作为 宏 块 的 集合 


B 帧 中 某 一 特定 的 宏 块 可 以 使 用 和 工 帧 中 同样 的 内 部 代码 。 存 在 这 种 灵活 性 是 因为 如 果 运 
动 图 像 变 化 太 快 ， 有 时 给 出 内 部 图 像 编码 比 推算 向 前 或 向 后 编码 更 合适 。 这 样 ， 在 B 帧 中 
的 每 一 宏 块 包含 一 个 类 型 字段 ， 说 明 宏 块 使 用 哪 一 种 编码 。 在 以 下 的 讨论 中 ， 我 们 只 考虑 
在 宏 块 中 使 用 双向 预测 编码 的 一 般 情况 。 

在 这 种 情况 下 ，B 帧 中 的 每 个 宏 块 用 一 个 4 元 组 表示 : 宏 块 在 帧 中 的 坐标 ， 相 对 前 一 
个 参考 帧 的 运动 向 量 ， 相 对 后 一 个 参考 帧 的 运动 向 量 ， 宏 块 中 每 个 像素 的 增 量 8 〈 即 每 个 
像素 相对 于 两 个 参考 像素 变化 了 多 少 ) 。 对 宏 块 中 的 每 个 像素 ， 第 一 个 任务 是 在 过 去 的 和 
未 来 的 参考 帧 中 查找 对 应 参考 像素 。 这 是 使 用 两 个 与 该 宏 块 有 关 的 运动 向 量 来 完成 的 。 然 
后 ， 把 该 像素 的 增 量 $ 与 两 个 像素 的 平均 值 相 加 。 更 准确 地 说 ， 如 果 我 们 分 别 用 PF, 和 Fi 
表示 过 去 的 和 未 来 的 参考 帧 ， 并 且 由 (ap. yo) 和 Car, y) 给 出 过 去 和 未 来 的 运动 向 
量 ， 那 么 当前 帧 ERA Fo) 中 在 坐标 (a y) 处 的 像素 由 如 下 公式 计算 : 

人 | 

其 中 8 是 B 帧 中 说 明 的 那个 像素 的 增 量 。 这 些 增 量 的 编码 方法 与 编码 I 帧 像素 的 方法 相 
同 。 就 是 说 ， 它 们 通过 DCT， 然 后 量化 。 由 于 增 量 通常 很 小 ， 所 以 大 多 数 DCT 系数 量化 
后 为 0， 因 此 它们 可 能 被 有 效 地 压缩 。 

从 前 面 的 讨论 中 我 们 已 经 非常 清楚 如 何 进行 编码 ， 但 有 一 个 例外 。 压 缩 期 间 生 成 一 
个 B 帧 或 P 帧 时 ，MPEG 必须 决定 把 宏 块 放 在 什么 位 置 。 回 想 一 下 P 卫 帧 中 的 每 个 宏 块 ， 
比如 ， 它 相对 于 工 帧 中 的 一 个 宏 块 来 定义 ， 但 了 帧 中 的 那个 宏 块 不 必 和 工 帧 中 对 应 的 安 
块 在 帧 的 同一 部 位 ， 其 位 置 的 差 由 运动 矢量 给 出 。 你 可 能 想 选 取 一 个 运动 矢量 ， 使 P 帧 
中 的 宏 块 尽 可 能 类 似 于 I 帧 中 对 应 的 宏 块 ， 使 该 宏 块 的 增 量 尽 可 能 小 。 这 就 意味 着 ， 你 
必须 计算 出 将 该 图 片 中 的 对 象 从 一 帧 移 到 了 下 一 帧 的 什么 位 置 。 这 是 一 个 运动 估计 
(motion estimation) 问题 ， 而 且 已 有 人 解决 这 个 问题 的 多 种 技术 (启发 式 方法 )。( 在 本 章 
末尾 “扩展 阅读 ”中 我 们 将 讨论 研究 这 个 问题 的 文章 。) 这 个 问题 的 难点 正 是 在 同样 的 
便 件 上 ，MPEG 编码 比 解码 所 花费 的 时 间 长 的 原因 之 一 。 如 上 所 述 ，MPEG 并 不 指定 任 
何 特定 的 技术 ， 它 只 定义 将 信息 编码 到 B 帧 和 P 帧 中 的 格式 以 及 解压 缩 期 间 重 构 像素 的 
算法 。 | 

. 效率 和 性 能 | 
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90: 1。 就 帧 的 类 型 而 言 ， 对 工 帧 来 说 压缩 比 大 约 可 达到 30 : 1 (这 与 先 将 24 位 颜色 减 到 8 
位 颜色 时 用 JPEG 完成 的 压缩 比 是 一 致 的 )， 而 了 帧 和 了 B 帧 通常 的 压缩 比 要 比 工 帆 高 3 一 5 
倍 。 如 果 不 先 将 24 位 颜色 减 到 8 位 颜色 ， 用 MPEG 可 达到 的 压缩 比 一 般 在 30 : 1 一 50 : 1 
TB} 

MPEG 涉及 非常 耗 时 的 计算 。 在 压缩 端 通常 脱 机 完成 ， 在 为 视频 点 播 服务 准备 影片 方 
面 ， 这 并 不 是 一 个 问题 。 如 今 可 以 使 用 硬件 实时 压缩 视频 ,但 是 软件 实现 正在 很 快 弥合 这 
种 差距 。 在 解压 缩 的 一 端 ， 可 以 利用 廉价 MPEG 视频 解压 缩 卡 ， 但 它 所 做 的 与 YUV 色彩 
查找 没什么 差别 ， 这 恰好 解决 了 开销 最 大 的 一 步 。 多 数 现 用 的 MPEG 解码 是 由 软件 完成 
的 。 在 最 近 几 年 ， 当 纯粹 用 软件 解码 MPEG 流 时 ， 处 理 器 已 经 快 到 足够 保持 每 秒 30 帧 的 
视频 速率 一 一 现代 处 理 器 甚至 可 以 解码 高 分 辨 率 的 MPEG 视频 流 (HDTV) 。 

3. 其 他 视频 编码 标准 

我 们 在 结束 讨论 时 指出 MPEG 不 是 唯一 可 用 于 编码 视频 的 标准 。 例 如 ， 为 编码 实时 
多 媒体 数据 ，ITU-T 也 定义 了 “HH 系列 ”标准 。HH 系列 通常 包括 视频 标准 、 音 频 标 准 、 
控制 标准 和 多 路 复 用 技术 标准 (例如 ， 将 音频 、 视 频 以 及 数据 混合 到 单个 比特 流 上 )。 在 
这 个 系列 中 ，H. 261 7 H. 263 是 第 一 代 和 第 二 代 的 视频 编码 标准 。 与 以 1. 5Mbps 比特 率 
为 目标 的 MPEG 的 早期 版 本 不 同 ，H. 261 和 H. 263 用 于 更 低 的 速率 。 它 们 用 于 综合 服务 
数字 网 (Integrated Services Digital Network, ISDN) 标准 ， 支 持 以 64kbps 为 增 量 的 可 用 
带宽 链 路 上 的 视频 。 大 体 上 看 ，H. 261 和 H. 263 都 与 MPEG 有 许多 类 似 的 地 方 ， 它们 都 
使 用 DCT、 量 化 和 中 间 帧 压缩 。HH. 261/H. 263 与 MPEG 只 是 在 细节 上 有 一 些 差别 。 事 实 
上 上， 比较 新 的 H. 264 标准 也 是 MPEG 一 4 标准 的 一 部 分 。 随 着 视频 被 越 来 越 多 的 设备 所 文 
持 ， 从 连接 低 带 宽 蜂 窝 无 线 网 的 小 屏幕 设备 到 连接 光缆 高 带宽 的 大 型 电视 机 ， 在 这 个 领域 
可 能 会 有 更 多 的 创新 要 求 和 更 多 的 标准 。 


7.2.4 在 网 上 传输 MPEG 


正 像 本 章 前 面 提 到 的 那样 ，MPEG 不 只 是 定义 怎样 压缩 视频 ， 还 定义 MPEG 压缩 的 
视频 格式 。 同 样 ，JPEG 和 GIF 定义 静止 图 像 的 格式 。 先 看 一 下 MPEG， 首 先 记 住 它 定 义 
视频 流 格式 ， 而 并 不 指明 如 何 将 这 个 流 拆 成 网 络 分 组 。 这 样 ，MPEG 不 但 可 用 于 存储 在 磁 
盘 上 的 视频 ， 也 可 用 于 在 一 个 面向 流 的 网 络 连接 上 传输 的 视频 ， 类 似 TCP 提供 的 连接 。 
稍 后 ， 我 们 将 更 详细 地 说 明 如 何 将 一 个 MPEG 流 拆 成 网 络 分 组 。 | 

MPEG 格式 是 本 书 中 讨论 的 协议 中 最 复杂 的 一 种 。 其 复杂 的 原因 在 于 要 求 编码 算法 对 
给 定 的 视频 流 编码 有 各 种 可 能 的 选择 。 复 杂 的 原因 还 在 于 随 着 时 间 的 推移 ， 标 准 不 断 地 发 
fe CB) MPEG-1 和 MPEG-2)。 以 下 描述 的 是 MPEG-2 视频 流 的 主 型 (main profile) 。 你 
可 以 把 MPEG 的 “型 ”看 作 是 与 某 种 “版 本 ”类 似 ， 但 在 MPEG 的 首部 中 并 不 明确 说 
明 ; 接收 方 必 须 综 合 它 所 看 到 的 首部 字段 ， 推 肠 出 视频 流 的 型 。 

如 图 7-16 所 示 ，MPEG-2 流 的 主 型 具 鹏 套 结 构 。( 注 意 这 个 图 隐藏 了 许多 琐碎 的 细 
节 。) 在 最 外 层 ， 视 频 包 含 一 个 由 SeqHdr 分 隔 的 图 片 组 (GOP) 序列 。 该 序列 由 SeqEnd- 
Code. (0xb7) 结束 。SeqHdr 位 于 每 个 GOP 前 ， 说 明 GOP 中 每 个 图 片 〈 帧 ) 的 大 小 《以 
像素 和 宏 块 为 单位 测量 )、 图 片 间隔 期 (以 ms 为 单位 测量 ) 以 及 这 个 GOP 内 容 块 的 两 个 
量化 矩阵 一 一 一 个 用 于 帧 内 编码 宏 块 (I 块 )， 另 一 个 用 于 帧 间 编 码 宏 块 (B 块 和 了 H). 
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由 于 这 个 信息 针对 每 个 GOP 给 出 而 不 是 如 你 可 能 希望 的 那样 针对 整个 视频 流 做 出 说 明 ， 
所 以 可 以 在 整个 视频 的 GOP 边界 上 改变 量化 表 和 帧 频 。 正 如 我 们 下 面 讨论 的 ， 这 就 使 它 
能 适应 视频 流 随时 间 的 变化 。 
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图 7-16 压缩 的 MPEG 视频 流 格式 


每 个 GOP 由 一 个 GOPHdr 给 出 ， 后 面 跟着 构成 这 个 GOP 的 一 组 图 片 。GOPHdr 说 
明 这 个 GOP 内 图 片 的 数目 ， 以 及 这 个 GOP 的 同步 信息 〈 即 当 GOP 播放 时 ， 相 对 于 这 个 
视频 的 开始 ) 。 每 个 图 片 依次 由 PictureHdr 和 构成 这 个 图 片 的 一 组 片段 (slice) 给 出 。( 一 
个 片段 是 这 个 图 片 的 一 个 区 域 ， 例 如 一 条 水 平 线 。) PictureHdr 标识 图 片 的 类 型 (I、B 或 
P)， 除 此 之 外 还 定义 特定 图 片 的 量化 表 。SliceHdzr 给 出 片段 的 顶点 位 置 ， 并 给 出 一 次 改变 
量化 表 的 机 会 一 一 通过 乘 一 个 常量 比例 因子 而 不 通过 给 出 一 个 全 新 的 量化 表 。 接 着 ,在 
SliceHdr 后 面 跟着 一 系列 宏 块 。 最后， 每 个 宏 抉 包含 一 个 首部 ， 用 来 说 明 块 在 图 片 内 的 地 
址 ， 以 及 这 个 宏 块 内 的 6 个 数据 块 : 1 个 口 分 量 、1 个 V 分 量 和 4 个 Y 了 分量。( 回 忆 一 下 ， 
了 分 量 是 16X16 的 ,而 UU 分 量 和 V 分 量 是 8X8 的 。) 

显然 MPEG 格式 的 功能 之 一 就 是 它 能 给 编码 程序 一 个 随时 修改 编码 的 机 会 。 它 能 更 
改 帧 速率 、 分 辩 率 、 定 义 GOP 的 混合 帧 类 型 、 量 化 表 和 用 于 单个 宏 块 的 编码 。 因 此 ， 通 
过 权衡 网 络 带宽 与 图 片 质量 ， 它 就 能 适应 在 网 上 传输 的 视频 的 速率 。 网 络 协议 怎样 利用 这 
种 适应 性 是 当前 的 一 个 热门 研究 课题 〈 见 “相关 主题 ”) 。 

在 网 上 发 送 视 频 流 的 另 一 个 重要 问题 是 如 何 把 流 恰 好 拆 成 分 组 。 如 果 在 TCP 的 连接 
上 发 送 视频 流 ， 拆 成 分 组 是 不 成 问题 的 ，TCP 判定 何 时 有 足够 多 的 字 节 发 送 下 一 个 IP 数 
据 报 。 但 使 用 交互 式 视频 时 ， 极 少 在 TCP 上 传输 ， 因 为 TCP 对 丢失 数据 段 的 重 传 会 产生 
不 可 接受 的 延迟 。 如 果 我 们 用 UDP 传输 视频 ， 就 要 谨慎 地 选择 流 的 拆 分 点 ， 例 如 ， 可 以 
选择 宏 块 的 边界 。 这 是 因为 我 们 想 把 一 个 丢失 的 分 组 造成 的 影响 限制 在 一 个 宏 块 中 ， 而 不 
会 因为 一 个 丢失 的 数据 段 而 同时 损坏 几 个 宏 块 。 这 就 是 一 个 应 用 层 组 帧 的 实例 ，5. 4 节 已 
经 讨论 过 这 一 主题 。 
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拆 分 视频 流 只 是 在 网 上 发 送 MPEG 压缩 视频 的 第 一 个 问题 。 下 一 个 复杂 的 问题 是 处 
理 分 组 的 丢失 。 一 方面 ， 如 果 B 帧 被 网 络 丢 弃 ， 那 么 它 可 能 简单 地 重 放 前 一 帧 ， 不 会 严重 
地 影响 视频 播放 ，30 帧 中 丢失 1 帧 不 是 大 问题 。 另 一 方面 ,丢失 I 帧 会 有 严重 的 后 果 一 一 
没有 它 ， 随 后 的 B 帧 和 PP 帧 就 不 能 处 理 。 因 此 ， 丢 失 工 帧 会 导致 丢失 若干 视频 帧 。 虽 然 你 
可 以 重 传 故障 的 I 帧 ,但 因此 产生 的 延迟 在 实时 视频 会 议 中 大 概 是 不 可 接受 的 。 这 个 问题 
的 一 个 解决 方案 是 使 用 6. 5. 3 节 介绍 的 区 分 服务 技术 ， 将 含有 了 工 帧 的 分 组 标记 为 比 其 他 分 
组 小 的 丢失 概率 。 | 

最 后 注意 怎样 选择 编码 视频 不 只 取决 于 可 用 网 络 带 宽 ， 还 取决 于 应 用 程序 对 延迟 的 限 
制 。 像 视频 会 议 这 样 的 交互 式 应 用 程序 要 求 延 迟 很 小 。 关 键 的 因素 是 在 GOP 中 I 帧 、P 帧 
Al B 帧 的 组 合 。 考 虑 下 列 GOP. | 

IBBBBPBBBBI 

这 个 GOP 使 视频 会 议 应 用 程序 产生 的 问题 在 于 ， 发 送 方 必须 延迟 4 个 B 帧 的 传输 ， 直 至 
得 到 它们 后 面 的 P 帧 或 1 帧 。 这 是 因为 每 个 B 帧 依赖 于 后 续 的 P 帧 或 1 帧 。 假 设 视频 以 15 
帧 /s 的 速率 显示 CB 1 帧 /67ms)， 这 就 意味 着 第 一 个 B 帧 被 延迟 4X67ms， 大 于 0. 25s。 
这 个 延迟 不 包括 由 网 络 产生 的 传播 延迟 。0. 25s 远 远大 于 人 有 眼 可 感知 的 100ms 的 最 低 限 
度 。 为 此 许多 视频 会 议 使 用 JPEG 编码 视频 ，JPEG 常常 被 称 为 运动 -JPEG。( 由 于 所 有 帧 
都 能 独立 ， 因 此 运动 -JPEG 还 能 解决 丢失 参考 帧 的 问题 。) 但 是 要 注意 ， 一 个 只 依赖 于 先 
前 的 帧 而 不 依赖 后 面 的 帧 的 中 间 帧 的 编码 不 会 成 为 问题 。 这 样 ， 一 个 形 如 
: IPPPPI 
的 GOP 会 在 交互 式 视频 会 议 中 工作 正常 。 





自 适应 视频 编码 | | 

我 们 已 经 讲 过 ， 使 用 MPEG 的 视频 编码 允许 在 图 像 的 质量 和 消耗 的 带宽 之 间 进 行 权 
衡 。 相 反 ， 显 然 在 某 些 质量 级 别 上 操作 的 视频 压缩 算法 的 输出 带宽 一 般 不 会 是 常量 ， 而 是 
根据 视频 流 中 细节 和 运动 的 数量 随时 间 变 化 的 。 这 些 事实 引发 了 一 些 重要 的 问题 如何 设 
计 一 个 在 分 组 交换 网 上 传输 压缩 视频 的 系统 。 | | 

假设 我 们 有 一 个 视频 编 解 码 器 ， 它 以 尽 bps 的 平均 速率 输出 压缩 的 视频 流 ， 但 是 偶然 
会 暴涨 到 3R bps。 假 使 我 们 让 视频 流通 过 一 个 “平滑 缓冲 区 ”平滑 掉 瞬 时 传输 速率 中 的 峰 
值 ， 我 们 就 可 以 在 容量 为 尺 的 固定 带宽 管道 (如 一 条 租用 线路 或 CBR 电路 ) 上 传输 这 个 
视频 流 。 现 在 ， 可 能 在 某 一 时 刻 平滑 缓冲 区 发 生 溢出 ， 也 许 是 由 于 电影 中 一 系列 很 长 的 动 
作 导 致 视频 编码 解码 器 在 较 长 一 段 时 期 内 的 高 速率 输出 。 这 时 ， 我 们 可 以 暂时 增加 压缩 数 
量 ， 由 此 降低 数据 速率 〈 和 图 片 质量 )， 容 许 腾 空 平 滑 缓冲 区 。 当 平 温 缓 冲 区 接近 空 时 ， 
我 们 再 提高 编码 质量 。 

我 们 在 分 组 交换 网 上 能 做 很 多 相同 的 工作 ,但 是 不 用 平滑 缓冲 区 。 假 设 我 们 有 办 法 测 
量 可 用 容量 以 及 沿 一 条 路 径 的 拥塞 程度 ， 比 如 ， 使 用 6.5.5 节 讲述 的 基于 等 式 的 拥塞 控制 
算法 。 在 可 用 带宽 波动 时 ， 我 们 可 以 把 信息 反馈 到 编 解码 器 以 便 调 整编 码 参 数 ， 使 其 在 拥 
塞 期 间 缩 减 ， 且 在 网 络 空 闵 时 更 积极 地 (用 较 高 图 片 质 量 ) 发 送 。 这 类 似 TCP 的 行为 ， 
除了 传输 视频 的 情况 ， 我 们 宁愿 实际 修改 发 送 的 总 数据 量 也 不 愿意 修改 发 送 定量 数据 需要 
花费 的 时 间 ， 因 为 我 们 不 想 把 延迟 引入 视频 应 用 程序 。 


如 果 我 们 把 一 个 视频 流 多 播 (multicasting) 到 许多 接收 方 就 会 出 现 一 个 有 趣 的 问题 。 
由 于 视频 流 可 能 经 历程 度 不 同 的 拥塞 ， 那 么 如 何 为 每 个 接收 方 选 择 恰 当 的 速率 ? 解决 这 个 
问题 的 巧妙 方案 是 将 被 传输 的 视频 流 拆 分 为 一 些 “ 层 ”。 第 一 层 包含 图 片 所 需 的 基本 细节 ， 
而 后 续 的 层 加 入 更 多 由 更 高 频 信 息 组 成 的 细节 。 然 后 每 一 层 发 送 到 不 同 的 多 播 组 地 址 ， 这 
样 每 个 接收 方 可 以 决定 要 加 入 多 少 层 。 如 果 接 收 方 A 经 历 严重 拥塞 ,那么 它 就 只 参加 携带 
基本 层 的 多 播 组 ， 而 接收 方 B 可 能 加 入 所 有 层 。 接 收 方 A 可 以 定期 尝试 参加 下 一 层 的 细 
节 看 看 是 否 有 足够 帮 宽 可 用 。 这 种 方法 称 为 接收 方 驱动 的 分 层 多 播 (receiver-driven lay- 
ered multicast，RLM) 。 一 个 值得 研究 的 问题 是 ， 如 何 建立 一 组 激励 使 接收 方 参加 恰当 数 
目的 组 而 不 参加 所 有 组 ， 因 为 参加 太 多 的 组 会 引发 不 必要 的 网 络 拥塞 。 


7.2.5 音频 压缩 (MP3) 


MPEG 不 仅 定义 如 何 压缩 视频 ， 它 还 定义 了 压缩 音频 的 标准 。 这 个 标准 可 用 于 压缩 电 
影 的 音频 部 分 (此 时 ，MPEG 标准 定义 在 一 个 MPEG 流 中 压缩 音频 与 压缩 视频 如 何 交 
错 ) ， 或 压缩 独立 的 音频 〈 例 如 音频 CD) 。 

为 了 清楚 音频 压缩 ， 我 们 必须 从 数据 开始 。CD 质量 的 音频 实际 上 是 高 品质 音频 的 数 
字 表 示 ， 它 是 以 44. 1kHz 频率 采样 的 〈 即 大 约 每 23ms 采样 一 次 ) 。 每 个 样本 16 比特 ， 它 
意味 着 一 个 立体 声 (2 声 道 ) 音频 流产 生 一 个 如 下 的 比特 速率 : 

2X44.1xX1 000X16 王 1. 41Mbps 

比较 起 来 ， 电 话 质量 的 声音 是 以 8KHz 频率 采样 的 ， 具 有 8 比特 的 样本 ， 产 生 64kbps 的 
比特 速率 ， 并 非 巧 合 ， 这 正 是 ISDN 链 路 的 速度 。 

显然 ， 在 容量 为 128kbps 的 一 对 ISDN 数据 /声音 线 上 传输 CD 质量 音频 需要 一 定量 也 
压缩 。 尤 其 糟糕 的 是 ， 同 步 和 错误 校正 开销 需要 用 49 比特 编码 每 个 16 比特 样本 ， 这 使 得 
实际 的 比特 速率 为 37-2 MP3 的 压缩 率 
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MPEG 通过 定义 三 级 压缩 来 解决 这 种 需求 ， 表 7-2 中 













给 出 其 定义 。 其 中 ，Layer TIT (更 广为人知 的 名 一 
称 为 MP3) 是 最 党 用 的 e oo an O2 

为 了 达到 这 样 的 压缩 率 ，MP3 使 用 MPEG 压缩 视频 所 使 用 的 类 似 技 术 。 首 先 ， 它 把 
音频 流 拆 分 为 某 些 频率 的 子 波段 ， 大 致 类 似 于 MPEG 分 别 对 视频 流 分 量 Y、U 和 V 的 处 
理 方法 。 其 次 ， 每 个 子 波段 被 分 成 一 系列 的 块 ， 除 了 其 长 度 可 以 在 64~1 024 个 样本 之 间 
变化 外 ， 它 类 似 于 MPEG 的 宏 块 。( 编 码 算法 可 以 根据 菜 些 失真 效果 改变 块 的 大 小 ， 音 响 
失真 效果 超出 我 们 讨论 的 范围 .) 最后， 就 像 对 MPEG 视频 那样 ， 每 个 块 用 改进 的 DCT 
算法 进行 变换 、 量 化 和 赫 夫 曼 编码 。 

MP3 的 诀窍 在 于 选择 使 用 多 少子 波段 以 及 为 每 个 子 波段 分 配 多 少 比特 ， 要 记 住 这 就 
是 尝试 产生 目标 比特 速率 允许 的 最 佳 质量 的 音频 。 如 何 准确 完成 这 些 分 配 是 由 音质 模型 来 
控制 的 ， 这 超出 本 书 的 讨论 范围 。 但 为 了 说 明 这 个 思想 ， 考 虑 在 压缩 男声 时 分 配 较 多 比特 
给 低频 子 波 段 ， 而 在 压缩 女声 时 分 配 较 多 比特 给 高 频 子 波段 ， 这 是 有 道理 的 。 在 操作 上 ， 
MP3 动态 修改 每 个 子 波段 的 量化 表 ， 使 每 个 子 波段 达到 理想 的 效果 。 

一 旦 进行 压缩 ， 子 波段 就 被 打包 成 定 长 的 帧 ,而且 附 上 一 个 帧 首部 。 这 个 帧 首部 不 但 
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包括 同步 信息 ， 而 且 还 包括 解码 器 为 确定 编码 每 个 子 波段 使 用 多 少 比特 所 需要 的 比特 分 配 
言 息 。 如 上 所 述 ， 这 些 音 频 帧 就 能 与 视频 帧 交替 形成 完整 的 MPEG 流 。 值 得 说 明 的 一 点 
是 ， 在 可 能 发 生 拥 塞 的 网 络 中 ， 虽 然 丢 弃 B 帧 可 行 ,但 经 验 告 诉 我 们 ， 丢 弃 音 频 帧 不 是 一 
个 好 主意 ， 因 为 与 劣质 音频 相 比 用 户 更 能 容忍 劣质 视频 。 


1.3 小 结 


本 章 描述 了 网 络 分 组 中 的 应 用 程序 数据 是 如 何 编码 的 。 与 本 书 前 面 介 绍 的 网 络 协议 不 
同 ， 那 里 你 可 以 把 协议 看 作 处 理 消 息 (message)， 而 这 里 的 转换 是 处 理 数 据 〈data)。 多 
媒体 数据 类 型 ， 例 如 视频 、 静 态 图 像 、 音 频 ， 都 推动 着 这 个 领域 的 发 展 。 

第 一 个 问题 是 表示 格式 化 ， 其 中 难点 是 格式 化 应 用 程序 计算 的 不 同 数 据 类 型 ， 整数、 
浮 点 数 、 字 符 串 、 数 组 以 及 结构 。 这 有 既 涉 及 计算 机 和 网 络 之 间 字 节 顺 序 的 转换 ， 也 涉及 复 
合 数 据 结构 的 线性 化 。 我 们 概述 了 表示 格式 化 的 设计 空间 ， 以 及 在 这 个 设计 空间 中 处 于 不 
同位 置 的 四 种 特殊 机 制 ， XDR、ASN. 1、NDR 以 及 越 来 越 重 要 的 XML. 

第 二 个 问题 是 压缩 ， 它 所 关心 的 是 减少 传输 不 同类 型 的 数据 所 需 的 带宽 。 压 缩 算法 可 
以 是 无 损 压 缩 或 者 是 有 损 压 缩 ， 有 损 压 缩 算法 最 适合 图 像 和 视频 数据 。JPEG、MPEG 和 
MP3 是 有 损 压 缩 协议 的 例子 ， 分 别 用 于 静态 图 像 、 视 频 和 音频 数据 。 MPEG 系列 等 视频 
压缩 和 编码 格式 要 继续 发 展 ， 以 在 有 限 的 可 用 宽带 内 满足 更 高 的 质量 需求 。 





无 处 不 在 的 视频 


是 现在 因特网 流量 的 主要 部 分 ， 它 具有 三 屏幕 〈three- 
screen) 能 力 ， 即 可 以 交付 给 电视 、 电 脑 和 手机 ， 这 是 计算 、 通 信和 娱乐 业 的 首要 目标 。 
这 引发 了 很 多 有 趣 的 问题 。 问 题 之 一 是 这 些 视 频 午 会 影响 因特网 所 需 宽 市 。 今 天 从 互联 网 
有 足够 的 配置 能 力 到 把 娱乐 视频 传播 给 每 一 个 看 电视 或 租 DVD 的 人 ， 我 们 还 有 很 长 一 段 
路 要 走 。 这 不 仅 推 动 了 人 们 对 更 大 网 络 容 量 的 需求 ， 也 促进 了 “内 容 为 中 心 网 络 ” 等 新 型 
网 络 体系 结构 的 提出 。 

与 本 章 内 容 更 直接 相关 的 是 ， 在 这 个 新 的 视频 格式 无 处 不 在 的 环境 中 ， 需 求 聚 集 在 纺 
码 和 表示 格式 上 。 作 为 这 个 部 分 所 面临 的 挑战 的 一 个 例子 ， 考 虑 这 样 一 个 事实 ， 即 视频 流 
中 的 三 个 主要 开发 者 (Microsoft®, Adobe® Ml Apple®) 都 开发 出 了 自己 的 从 网 站 到 浏览 
器 的 不 同 视频 流 协议 。 用 户 可 以 在 浏览 器 上 安装 恰当 的 插件 来 解决 大 多 数 的 不 兼容 情况 ， 
但 是 在 一 些 不 灵活 的 设备 上 ， 比 如 手机 ， 就 会 出 现 明 显 的 混乱 。 随 着 网 络 电 视 和 机 顶 盒 的 
出 现 ， 不 兼容 视频 格式 似乎 就 变 成 了 一 个 持续 让 用 户 烦 恼 的 来 源 。 

HTML5 的 新 兴 标 准 试图 确保 至 少 有 一 个 被 所 有 浏览 硕 都 支持 的 通用 的 视频 解码 齿 和 
格式 ， 以 此 来 成 为 它们 最 低 的 共同 标准 ， 但 是 这 个 过 程 至 今 还 没 能 实现 。 专 利 问 题 导 致 了 
参与 标准 制定 过 程 的 人 犹 黎 是 否 要 确定 一 个 格式 ， 因 为 他 们 害怕 一 旦 专利 被 侵犯 ， 它 们 的 
不 知名 的 所 有 者 就 会 露面 表示 不 满 。 

由 于 IP 视频 无 处 不 在 而 成 为 人 们 关注 焦点 的 另 一 个 问题 是 设备 的 方便 配置 和 管理 。 
尽管 现在 一 些 因特网 用 户 对 于 配置 网 络 参 数 得 心 应 手 (我 的 ISP 应 该 使 用 DHCP 还 是 
PPoE?) ， 但 是 对 于 一 般 的 电视 买 家 来 说 ， 他 们 不 太 可 能 想 进 行 比 调 台 按 钮 更 复杂 的 配置 。 
对 于 IP 设备 的 即 插 即 用 配置 仍然 是 一 个 很 重要 的 目标 ， 这 样 即便 不 是 网 络 专家 也 有 能 
排除 这 些 设 备 的 故障 。 这 是 管理 家 庭 设 备 这 个 更 大 的 问题 的 一 部 分 ， 目 前 已 成 为 网 络 上 的 


热门 话题 之 一 。 


扩展 阅读 
我 们 本 章 的 推荐 阅读 列表 的 前 两 篇 文章 分 别 给 出 JPEG 标准 和 MPEG 标准 的 概述 。 
“它们 的 主要 价值 是 阐明 形成 标准 的 各 种 因素 。 我 们 还 推荐 一 篇 有 关 接 收 方 驱动 的 分 层 多 播 
的 文章 ， 作 为 系统 设计 方法 的 一 个 优秀 实例 ， 它 包含 多 播 问题 、 拥 塞 控制 问题 和 视频 编码 
问题 。 
e Wallace, G. K. The JPEG still picture compression standard. Communications of 
the ACM 34 (1): 30-44, April 1991. 
。 Le Gall, D. MPEG: A video compression standard for multimedia applications. 
Communications of the ACM 34 (1); 46-58, April 1991. | | 
e McCanne, S., V. Jacobson, and M. Vetterli. Receiver-driven layered multicast. 
Proceedings of the SIGCOMM’96 Symposium, pages 117-130, September 1996. 
遗憾 的 是 ， 没 有 一 篇 文 草 给 出 表示 格式 的 详尽 论述 。 除了 XDR、ASN.1/BER 和 
NDR 的 规范 Cl Eisler [Eis06|, CCITT 建议 标准 LCCITT92a，CCITT92b]， 以 及 开放 
软件 基金 会 LOSF94]) 之 外 ， 还 有 另外 三 篇 文章 包含 有 关 表 示 格 式 化 的 主题 : O” Malley 
等 [OPM94]、Lin [Lin93] 和 Chen 等 [CLNZ89]。 这 三 篇 文章 都 讨论 有 关 性 能 的 问题 。 
关于 压缩 的 话题 ， 最 好 从 替 夫 曼 编 码 开 始 。 赫 夫 曼 编码 最 初 定 义 在 LHuf52」 中 。 最 
初 的 LZ 算法 是 在 Ziv 和 Lempel LZL77] 中 介绍 的 ， 并 且 其 改进 算法 也 是 由 同一 作者 发 表 
在 LZL78] 中 。 这 些 文章 都 是 纯 理 论 的 。 把 LZ 方法 引入 广泛 的 实践 领域 的 工作 可 在 
Welch [Wel84] 中 找到 。 关 于 压缩 问题 更 全 面 的 概述 ， 我 们 推荐 Nelson [Nel92]。 你 还 
可 以 从 最 新 的 一 些 关 于 多 媒体 的 书 中 学 习 有 关 压 缩 的 知识 。 我们 推荐 Witten 等 
LWMB99j， 它 有 很 高 的 科学 价值 ， 且 很 少 有 天 花 乱 坠 的 宣传 ， 而 Buford [Buf94] 汇集 了 
跨越 多 媒体 各 个 主题 的 一 些 重要 章节 。 对 MPEG 标准 的 全 面 描述 见 Mitchell 等 
LMPFL96]. X} MP3 的 描述 见 Noll [Nol97]. 
最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 ， 
e http://www. w3. org/TR/REC. xml/， 最 新 的 XML 标准 。 
。 http://mpeg. chiariglione. org/; MPEG 主页 ， 很 多 MPEG 资料 的 来 源 。 


>] ail 


1. 考虑 如 下 的 C 代码 : 





define MAXSTR 100 


struct date { 
char month[MAXSTR]; 
int day; 
int year; 

E 


struct employee { 
char name[MAXSTR]; 


14. 


15. 


. 使 用 XDR 和 htonl 分 别 对 有 1 000 个 元 素 的 整 型 数组 进行 编码 。 测量 并 比较 每 种 方法 的 性 
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int Ssh; 
struct date xhireday; 
int Salary_history[5]; 
int num_raises; 
}; 


static struct date dateO = {"DECEMBER", 2, 1998}; 
static struct date datel = {"JANUARY". 7, 2002): 


static struct employee employee0 = {"RICHARD", 4376, 
&date0,{80000, 85000, 
90000, 0, 0}, 2}; 

static struct employee employeel = {"MARY", 4377, 
&datel, {90000, 
150000.. 0.0,- OF... 1J; 


其 中 ，num_raises 十 1 对 应 于 数组 salary_history 中 有 效 条 目的 个 数 。 请 给 出 由 XDR 生成 的 employee0 
的 实际 表示 法 。 


. 对 于 上 题 ， 请 给 出 由 XDR 生成 的 employeel 的 实际 表示 法 。 
. 对 习题 1 给 出 的 数据 结构 ， 请 给 出 对 这 个 结构 进行 编码 /解码 的 XDR 例 程 。 如 果 你 有 可 用 的 XDR, 2 


行 这 个 例 程 并 测试 它 对 一 个 employee 结构 的 实例 进行 编码 和 解码 所 花费 的 时 间 。 


. 使 用 库 函 数 htonl 和 Unix 的 bcopy 或 Windows 的 CopyMemory 实现 一 个 例 程 ， 该 例 程 产 生 习 题 1 中 给 


定 结构 的 实际 表示 与 XDR 产生 的 完全 相同 。 如 果 可 能 ， 比 较 这 个 “手写 ”的 编码 /解码 器 与 相应 的 
XDR 例 程 之 间 的 性 能 差别 。 

能 。 对 于 读 
和 写 1 000 个 元 素 的 整 型 数组 的 简单 循环 如 何 进行 比较 ? 分 别 在 一 个 本 地 字 节 顺序 和 网 络 字 节 顺序 相 
同 的 计算 机 上 以 及 一 个 本 地 字 节 顺序 和 网 络 字 节 顺 序 不 同 的 计算 机 上 进行 实验 。 


. 写 出 你 自己 的 htonl 实现 。 使 用 你 的 htonl 和 〈 如 果 低 端 字 节 序 表示 法 硬件 可 用 ) 标准 库 版 本 ， 进 行 恰 


当 的 实验 来 确定 字 节 交换 整数 比 只 揽 贝 它们 多 花 多 长 时 间 。 


. 给 出 如 下 3 个 整数 的 ASN. 1 编码 。 注 意 ASN. 1 整数 与 XDR 中 的 一 样 ， 长 度 为 32 位 。 


(a) 101, 
(b) 10 120, 
(c) 16 909 060, 


. 给 出 下 列 3 个 整数 的 ASN. 1 编码 。 注 意 ASN. 1 整数 与 XDR 中 的 一 样 ， 长 度 为 32 位 。 


(a) 15, 
Cb) 29 496 729, 
(c) 58 993 458, 


. 给 出 习题 7 中 整数 的 高 端 字 节 序 和 低 端 字 节 序 表示 。 
. 给 出 习题 8 中 整数 的 高 端 字 节 序 和 低 端 字 节 序 表示 。 
. 用 XDR 对 图 5-18 所 示 的 SunRPC 协议 首部 进行 编码 和 解码 。XDR 的 版 本 是 由 RPCVersion 字段 决定 


的 。 这 样 做 可 能 有 什么 困难 ? 用 新 版 本 的 XDR 能 否 转变 成 低 端 字 节 序 整 型 格式 ? 


. 表示 格式 化 过 程 有 时 被 看 作 是 与 应 用 程序 分 开 的 独立 协议 层 。 假 设 如 此 ， 为 什么 在 表示 层 包 含 数据 


压缩 不 是 一 个 好 主意 ? 





. 假设 你 有 一 台 字 长 为 36 位 的 计算 机 ， 串 被 表示 为 每 个 字 包 含 5 个 压缩 的 7 位 字符 。 为 了 让 这 合计 算 


机 能 与 其 他 计算 机 交换 整数 和 串 数据 ， 必 须 解 决 什么 表示 法 问题 ? 

选择 一 种 能 支持 用 户 定义 的 自动 类 型 转换 的 程序 设计 语言 ， 定 义 类 型 netint 并 提供 在 int 和 netint 之 
间 进 行 赋值 和 相等 比较 的 转换 。 推 广 这 种 方法 可 以 解决 网 络 参 数 排列 问题 吗 ? 

不 同体 系 结构 对 位 顺序 以 及 字 节 顺序 有 不 同 约 定 ， 例 如 ， 字 节 的 最 低 有 效 位 是 第 0 位 还 是 第 7 位。 


* 20. 


Zi. 
22. 


24. 


20% 


26. 


LPos81j《〈 在 附录 BHA) 定义 标准 的 网 络 位 顺序 。 为 什么 位 顺序 与 表示 格式 无 关 ? 


. 在 网 络 中 ， 令 PSl 是 用 高 端 字 节 序 表示 的 分 数 ,， 1 一 p 则 用 低 端 字 节 序 表示 。 假 设 我 们 随机 选择 两 台 


计算 机 并 把 int 型 数据 从 一 台 计 算 机 发 送 到 另 一 台 计 算 机 。 对 于 p= 二 0.1、p 二 0.5 和 p=0.9, AHA 
于 高 端 字 节 序 表示 法 网 络 字 节 顺序 格式 和 接收 方 调整 格式 所 需 的 字 节 顺序 转换 的 平均 数 。( 提 示 : 两 
个 端点 都 使 用 高 端 字 节 序 表示 法 的 概率 是 p? ， 两 个 端点 都 使 用 不 同 字 节 顺 序 的 概率 是 2p C1 — pd.) 


. 描述 一 个 能 让 XML 文档 更 简短 且 更 有 效 的 XML 表示 形式 。 ~ 
. 用 一 个 压缩 实用 程序 (如 compress, gzip 或 pkzip) 做 实验 。 你 可 以 获得 什么 样 的 压缩 率 ? 能 和 否 产生 


一 些 数据 文件 ， 你 对 它 可 以 获得 5: 1 或 10: 1 的 压缩 率 ? 


. 假设 一 个 文件 包含 字母 a、b、c 和 qd。 和 名 义 上 我 们 要 求 这 样 的 文件 中 的 每 个 字母 用 两 个 比特 储存 。 


(a) 假设 字母 a 出现 的 概率 为 50%，b 出 现 的 概率 为 30%， 而 c 和 d 出 现 的 概率 均 为 10%。 给 出 一 
种 每 个 字母 为 2 比特 串 的 编码 ， 这 种 编码 提供 优化 的 压缩 。( 提 示 : 对 a 使 用 1 个 比特 。) 

(b) 你 提出 的 编码 方案 达到 的 压缩 比 是 多 少 ? (这 是 对 每 个 字母 达到 的 平均 压缩 比 ， 由 字母 的 频率 
加 权 。) 

(c) 假设 字母 a 和 bb 出现 的 频率 均 为 40%，c 出 现 的 频率 为 15%，d 出 现 的 频率 为 5%， 重 做 此 题 。 

假设 有 一 个 压缩 函数 c， 将 一 个 比特 串 s 压缩 后 为 比特 串 c(s)。 

(a) 说 明 对 任何 整数 N， 一 定 有 一 个 长 度 为 N 的 串 *， 满 足 length(c(s) SN, BAD, BREATHE 
无 效 的 压缩 。 

(b) 压缩 一 些 已 经 压缩 过 的 文件 〈 试 用 同样 的 实用 程序 依次 压缩 几 次 ) 。 文 件 的 长 度 发 生 什么 变化 ? 

(c) BM (a) 所 述 的 压缩 函数 c， 给 出 一 个 函数 c ， 对 所 有 比特 串 s，length(c (3)) 委 min(length(c 
(s)), length(s)) 十 1， 就 是 说 ， 在 最 坏 的 情况 下 ， 用 < 压缩 只 使 长 度 扩 大 1 比特 。 

给 出 一 个 行程 编码 算法 ， 要 求 只 用 单个 字 节 表示 不 重复 的 符号 。 

在 一 个 给 定 的 文本 文件 中 ， 编 写 一 个 程序 构造 一 部 包含 所 有 “ 词 ” 的 字典 ， 词 定义 为 连续 非 空 格 串 。 

我 们 可 以 通过 把 每 个 词 表示 为 词典 的 索引 来 压缩 该 文件 (忽略 空格 信息 的 丢失 )。 下 载 包含 [Pos81] 

的 rfc791. txt 文件 ， 并 在 其 上 运行 你 的 程序 。 首 先 假设 每 个 词 用 12 比特 编码 (这 应 该 是 足够 的 )， 

而 128 个 最 常用 的 词 用 8 比特 编码 ， 其 余 的 词 用 13 比特 编码 ， 给 出 压缩 后 文件 的 大 小 。 假 设 字典 本 

身 能 按 每 个 词 占 length (word) + 1 字 节 存储 。 | 


. 除了 丢弃 第 二 个 变量 Gy) 和 第 二 个 余弦 因子 外 ， 一 维 离散 余弦 变换 (DCT) 类 似 于 二 维 变换 。 


我 们 也 丢弃 DCT MERA SEAM, H N=8 实现 DCT BRAMMER 〈 用 电子 表格 完成 ， 虽 然 用 支 

持 和 矩阵 的 语言 可 能 更 好 ) 并 回答 下 列 问题 : 

(a) 如 果 输 入 数据 为 (1,2,3,5,5,3,2,1)， 哪 些 DCT 系数 接近 02 | 

Cb) 如 果 输 入 数据 为 《1,2,3,4,5,6,7,8，， 我 们 必须 保留 多 少 个 DCT 系数， 才能 使 得 DCT HER 
后 的 值 都 在 其 原 值 的 1% 或 10% 以 内 ? 假设 丢弃 的 DCT 系数 用 0 代替 。 

() S 5 是 在 i 为 1 和 ;时 为 0 的 输入 序列 ， 其 中 1 二 i 过 8，j 关 i。 让 我 们 对 s; 应 用 DCT, SRRZ 
个 系数 为 0， 然 后 对 其 应 用 DCT 道 变 换 。 结 果 中 哪个 i 位 置 引起 的 错误 最 小 ?哪个 i 位 置 引起 的 
错误 最 大 ? 其 中 IKS, 

比较 JPEG 格式 的 全 日 图 像 与 相同 大 小 的 普通 照片 图 像 。 在 JPEG 压缩 过 程 的 哪个 阶段 或 哪些 阶段 ， 

制作 白 图 像 会 小 于 普通 照片 ? 

对 下 面 的 三 道 习 题 ， 可 以 用 实用 程序 cjpeg 和 djpeg， 并 可 从 http://www. ijg. org/ 站 点 下 载 。 也 

可 以 使 用 其 他 JPEG 转换 程序 。 对 于 手工 建立 和 检验 图 像 文件 ， 推 荐 pgm 可 移动 灰 度 格式 ， 参 见 

Unix pgm(5)/ppm(5) FHF. 

建立 一 个 由 8X8 网 格 、 首 列 为 垂直 黑 线 组 成 的 灰 度 图 像 。 压 缩 成 JPEG 格式 后 再 解压 缩 。 与 默认 质 

量 设置 下 产生 的 字 节 相差 多 少 ? 如 何 描述 引入 的 视觉 偏差 ? 什么 样 的 质量 设置 恰好 能 恢复 文件 ? 

建立 一 个 由 有 64 个 ASCII 字符 的 文本 串 组 成 的 8X8 灰 度 图 像 。 只 使 用 小 写字 母 ， 不 用 空格 和 标点 。 

压缩 成 JPEG 格式 然后 再 解压 缩 。 其 结果 作为 文本 可 识别 的 程度 如 何 ? 为 什么 加 入 空格 事情 会 变 得 更 
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We 若 质量 设置 为 100， 这 会 是 一 个 合理 的 文本 压缩 方法 吗 ? 

使 用 浮 点 算术 ， 写 一 个 程序 实现 正 向 DCT 和 反 向 DCT。 在 一 个 样本 图 像 上 运行 该 程序 。 由 于 DCT 
是 无 损 的 ， 因 此 由 程序 输出 的 图 像 应 该 与 输入 图 像 相 匹配 。 修 改 你 的 程序 使 其 将 一 些 高 频 分 量变 为 
0， 并 查看 输出 图 像 会 受到 什么 影响 。 这 与 JPEG 的 做 法 有 何 区 别 ? 

FAS pixel(z,y) 的 平均 值 来 表示 DCTO, 0). 

考虑 一 下 人 们 希望 视频 标准 能 够 提供 哪些 合理 的 功能 ， 例 如 快 进 、 编 辑 能 力 、 随 机 存 取 等 。( 参 见 本 
章 “ 扩 展 阅 读 ” 中 给 出 的 Le Gall 的 论文 “MPEG: A video compression standard for multimedia appli- 
cations”) 根据 这 些 性 质 解释 MPEG 的 设计 。 

对 MPEG 流 ， 假 设 你 希望 实现 快 进 和 快 退 。 假 如 限制 你 的 装置 只 显示 I 巾 ， 运行 过 程 中 会 出 现 什么 
问题 ?如果 不 做 限制 ， 显 示 快 进 序列 中 一 个 给 定 的 帧 ， 在 原 序列 中 你 必须 解码 的 最 大 帧 数 是 多 少 ? 
使 用 mpeg_play 播放 一 个 MPEG 编码 的 视频 。 试 验 各 选项 ， 特 别 是 -nob 和 -nop， 它 们 分 别 用 于 省 略 
流 中 的 B 帧 和 P 帧 。 省 略 这 些 帧 会 出 现 什 么 可 视 效果 ? 

mpeg_stat 程序 可 以 用 来 显示 视频 流 的 统计 数据 。 对 多 个 流 使 用 该 程序 ， 确 定 : 

(a) IT、B 和 了 P 帧 的 数量 和 顺序 。 

Cb) 整个 视频 的 平均 压缩 率 。 

Co) 每 种 帧 的 平均 压缩 率 。 

设想 我 们 有 一 个 在 黑 背 景 上 两 个 白 点 以 均匀 速率 相向 移动 的 视频 。 我 们 借助 MPEG 对 其 进行 编码 。 
在 一 个 I 帧 中 两 个 点 分 别 为 100 像素 ， 在 下 一 个 工 帧 中 它们 已 合并 了 。 最 终 合 并 的 点 刚好 位 于 16 又 16 
宏 块 的 中 心 。 

(a) 描述 如 何 对 插入 的 B 帧 GRP WE) A) 了 分 量 进行 最 佳 编码 。 

(b) 假设 点 是 彩色 的 ， 而 且 当 点 移动 时 色彩 缓慢 变化 。 描 述 U 和 V 可 能 如 何 编码 。 
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问题 : 安全 攻击 

计算 机 网 络 是 一 种 典型 的 共享 资源 ， 被 很 多 代表 不 同 利益 的 应 用 程序 所 使 用 。 因 特 网 
就 是 一 种 被 广泛 共享 的 资源 ， 相 互 竞 争 的 商业 对 手 、 相 互 敌对 的 政府 以 及 投机 的 犯罪 分 子 
都 在 使 用 它 。 如 果 不 采用 安全 措施 ， 攻 击 者 可 能 会 危及 网 络 会 话 或 分 布 式 应 用 的 安全 。 

考虑 一 些 对 安全 使 用 网 络 (如 万 维 网 ) 的 威胁 。 假 设 你 是 一 个 使 用 信用 卡 从 网 站 订购 
商品 的 顾客 。 一 个 很 明显 的 威胁 是 攻击 者 可 能 会 窃听 网 络 通 信 ， 读 取消 息 来 获得 你 的 信用 
卡 信 息 。 那 么 如 何 实现 这 种 窃听 呢 ? 在 广播 网 络 〈 如 以 太 网 ) 上 实现 窃听 是 很 容易 的 ， 因 
为 任何 节点 都 可 以 通过 配置 来 接收 网 络 上 的 所 有 流量 。 对 于 无 线 通 信 ， 则 可 以 在 没有 物理 
连接 的 情况 下 实现 窃听 。 更 复杂 的 窃听 方法 包括 搭 线 窃听 和 在 任何 相关 节点 上 安装 间谍 软 
件 。 只 有 在 非常 极端 的 情况 下 (如 国家 安全 ) 才 会 采用 严格 的 措施 来 阻止 窃听 ， 而 因特网 
则 不 属于 这 种 情况 。 但 是 ， 通 过 加 密 消息 来 防止 攻击 者 读 取消 息 的 内 容 是 可 能 而 且 可 行 
的 。 采 取 了 这 种 措施 的 协议 称 为 提供 了 机 密 性 〈confidentiality) 。 更 深 一 步 ， 隐 藏 通信 的 
数量 和 目的 地 称 为 流量 机 密 性 (traffic confidentiality) 一 一 因为 有 时 仅仅 知道 问 某 个 地 址 
发 送 的 通信 量 对 攻击 者 来 说 也 是 有 帮助 的 。 

对 于 网 站 的 顾客 来 说 ， 即 使 保证 了 保密 性 ， 仍 然 存在 其 他 威胁 。 攻 击 者 虽然 不 能 读 取 
加 密 消 息 的 内 容 ， 但 仍 能 修改 其 中 的 一 些 位 以 便 构成 另 一 个 有 效 的 订单 ， 如 完全 不 同 的 商 
品 或 1 000 个 同样 的 商品 。 有 些 技术 虽然 不 能 阻止 这 种 算 改 ,但 可 以 检测 到 算 改 。 能 够 检 
测算 改 的 协议 称 为 提供 了 数据 完整 性 (data integrity) 。 攻 击 者 也 可 能 利用 重 放 攻击 《re- 
play attack) 把 你 的 消息 再 重新 发 送 一 遍 。 对 于 网 站 来 说 ， 好 像 是 你 又 订购 了 一 份 与 第 一 
次 相同 的 商品 。 能 够 检测 重 放 攻 击 的 协议 称 为 提供 了 原始 性 〈originality) 。 然 而 ， 原 始 性 
并 不 能 阻止 攻击 者 拦截 你 的 订单 ， 并 且 等 待 一 段 时 间 后 再 传输 该 订单 一 一 实际 上 是 推迟 你 
的 订单 。 攻 击 者 可 以 安排 在 你 外 出 度假 的 时 候 把 商品 送 到 你 家 门口 ， 此 时 他 就 可 以 很 容易 
地 窃取 你 的 商品 。 能 够 检测 这 种 延迟 攻击 的 协议 称 为 提供 了 实效 性 timeliness)。 数 据 完 
整 性 、 原 始 性 和 实效 性 被 看 作 是 一 般 属性 一 一 完整 性 (intergrity〉 的 不 同方 面 。 

”对 顾客 的 另 一 个 威胁 是 在 不 知情 的 情况 下 被 重 定向 到 一 个 错误 的 网 站 。 这 可 能 是 由 于 
域名 系统 (DNS) 攻击 造成 的 ， 即 错误 信息 被 输入 到 域名 服务 器 或 顾客 计算 机 的 域名 服务 
缓存 中 。 这 会 导致 将 正确 的 URL 翻译 成 错误 的 IP 地 址 一 一 错误 网 站 的 地 址 。 能 够 确保 你 
的 确 在 与 一 个 你 认为 正在 与 之 通话 的 人 通话 的 协议 称 为 提供 了 认证 (authentication), i 
证 与 完整 性 是 紧密 联系 的 ， 因 为 如 果 消 息 已 经 不 是 原始 消息 了 ， 那 么 确认 该 消息 来 自 特定 
的 人 是 没有 意义 的 。 

网 站 的 拥有 者 也 可 能 被 攻击 。 有 些 网 站 的 外 观 已 经 被 破坏 ， 网 站 文件 在 未 授权 的 情况 下 





被 远程 访问 并 修改 。 这 就 是 访问 控制 (access control) 问题 ， 强制 实施 用 于 规定 谁 可 以 做 什 
么 的 规则 。 网 站 也 会 受到 拒绝 服务 (Denial of Service, DoS) 攻击 。 网 站 被 攻击 期 间 ， 顾 客 
不 能 访问 网 站 ， 因 为 网 站 已 经 被 假 请 求 淹没 。 确 保 一 定 程度 的 访问 称 为 可 用 性 (availability)。 

除了 这 些 问 题 ， 因 特 网 曾 被 大 量 用 于 部 署 亚 意 代码 ， 它 们 利用 了 端 系统 中 的 漏洞 E 
k (worm) 是 在 网 络 上 自我 复制 的 代码 段 ， 它 已 经 出 现 了 几 十 年 ， 并 在 继续 制造 麻烦 ， 
与 之 相关 的 病毒 〈virus) 也 是 这 样 ， 病 毒 是 通过 传输 被 感染 的 文件 来 传播 的 。 被 感染 的 计 
算 机 就 可 以 被 部 署 成 僵尸 网 络 ， 实 施 进 一 步 的 破坏 ， 如 发 起 DoS 攻击 。 

虽然 因特网 提供 元 余 来 应 对 诸如 链 路 或 路 由 器 损坏 之 类 的 问题 ， 但 它 的 原始 设计 中 并 
没有 提供 我 们 所 讨论 的 安全 性 。 因 特 网 安全 机 制 实质 上 是 补丁 。 如 果真 的 要 对 因特网 进行 
全 面 的 重新 设计 ， 那 么 集成 安全 性 将 会 是 最 重要 的 推动 因素 。 这 可 能 使 得 本 章 更 加 切 题 。 

现在 有 很 多 用 于 保护 联网 系统 安全 的 工具 ， 从 各 种 密码 术 到 专用 设备 ， 如 防火 墙 。 本 
章 将 介绍 这 些 工具 ， 并 重点 关注 使 用 密码 学 方法 来 增强 网 络 安全 性 。 增 强 网 络 安全 性 仍然 
是 一 个 快速 变化 且 需 要 大 量 研 究 工 作 的 领域 。 


8.1 密码 基础 


我 们 将 一 步 一 步 地 介绍 以 密码 学 为 基础 的 安全 概念 。 第 一 步 是 密码 算法 一 一 密码 和 窗 
码 散 列 一 一 在 本 节 中 介绍 。 密 码 算 法 本 身 不 能 作为 安全 解决 方案 ， 而 是 构建 安全 方案 的 基 
fil, S84) (key) 是 密码 算法 的 参数 ，8.2 而 解决 分 发 密 钥 的 问题 。 下 一 步 ( 见 8.3 市 )， 
我 们 将 描述 如 何 将 密码 模块 集成 到 协议 中 以 便 为 拥有 正确 密 钥 的 参与 者 提供 安全 的 通信 ，。 
最 后 ，8.4 市 分 析 了 几 个 当前 正在 使 用 的 完整 的 安全 协议 和 系统 。 


8. 1.1 密码 原理 


加 密 对 消息 作 变 换 ， 使 得 任何 不 知道 如 何 做 逆 变 换 的 人 都 不 能 理解 该 消息 。 发 送 方 把 
加 密 (encryption) 函数 应 用 于 原始 明文 (plaintext) FRB, GAA A BX (ciphertext) 
消息 ， 再 发 送 到 网 络 上 ， 如 图 8-1 所 示 。 接 收 方 应 用 一 个 秘密 的 解密 (decryption) K 
数 一 一 加 密 函 数 的 逆 函 数 一 一 恢复 出 原始 明文 。 如 果 窃 听 者 不 知道 解密 函数 ， 那 么 他 就 不 
能 理解 网 络 中 传输 的 密 文 。 由 加 密 函 数 及 相应 的 解密 函数 所 表示 的 转换 称 为 密码 Cipher), 
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图 8-1 对 称 密 钥 加 密 和 解密 


密码 学 家 最 早 在 1883 年 就 提出 了 上 述 原理 。 加 密 和 人 解密 函数 应 该 以 一 个 密 钥 (key) 
为 参数 ， 并 且 函 数 应 该 可 以 公开 一 一 只 有 密 钥 应 该 保密 。 因 此 ， 针 对 给 定 明文 消息 所 产生 
的 密 文 依赖 于 加 密 算法 和 密 钥 。 采 用 该 原理 的 一 个 原因 是 ， 如 果 你 依赖 于 密码 算法 的 保 
密 ， 那 么 当 你 认为 它 不 再 保密 时 ， 就 必须 放弃 这 个 算法 (而 不 光 是 密 钥 )。 这 意味 春 要 频 
繁 地 修改 密码 算法 ， 而 开发 一 个 新 的 算法 要 做 大 量 工 作 ， 因 此 这 样 做 是 有 问题 的 。 而 且 ， 
想 知道 某 个 密码 算法 是 否 有 效 的 最 好 的 方法 是 长 时 间 使 用 它 一 一 如 果 没 有 人 能 破解 它 ， 它 
可 能 就 是 安全 的 。( 幸 好 ， 许 多 人 试图 破解 算法 ， 并 且 当 他 们 成 功 时 会 让 尽量 多 的 人 知道 ， 
所 以 一 般 来 说 ， 没 有 消息 就 是 好 消息 。) 因此 ， 开 发 一 个 新 的 算法 会 有 相当 大 的 开销 和 风 
险 。 最 后 ， 用 密 钥 将 密码 算法 参数 化 实际 上 为 我 们 提供 了 一 个 非常 大 的 密码 算法 族 ， 更 换 
密 钥 实质 上 是 更 换 密码 算法 ， 从 而 限制 密码 分 析 者 (cryptanalyst， 即 密码 破译 者 ) 能 
于 破译 密 钥 / 密 码 算法 的 数据 总 量 ， 以 及 成 功 破译 后 能 够 解密 的 数据 总 量 。 

对 加 密 算法 的 基本 需求 是 它 能 用 一 种 方法 把 明文 转换 成 密 文 ， 只 有 指定 的 接收 者 一 一 
即 解密 密 钥 的 持 有 者 一 一 才能 把 密 文 恢复 成 明文 。 这 意味 着 ， 没 有 解密 密 钥 者 的 人 无 法 解 
密 消 息 。 

当 一 个 潜在 攻击 者 接收 到 一 段 密 文 时 ， 他 可 能 知道 更 多 的 信息 ， 而 不 仅仅 是 密 文 本 
和 上身。 认识 到 这 一 点 很 重要 。 例 如 ， 他 们 可 能 知道 明文 是 用 英文 写 的， 这 意味 着 在 明文 中 字 
”和 母 e 会 比 其 他 字母 出 现 得 更 频繁 ， 其 他 一 些 字 和 母 和 和 常见 字母 组 合 出 现 的 频率 同样 可 以 预 
测 。 这 个 信息 可 以 极 大 地 简化 寻找 密 钥 的 工作 。 同 样 ， 他 可 能 知道 消息 的 一 些 有 关内 容 ， 
比如 , “login” 一 词 很 可 能 出 现在 一 个 远程 登录 会 话 的 开始 。 这 可 能 引起 一 次 已 知 明 文 
(known plaintext) Kit, EMR SX (ciphertext only 攻击 有 高 得 多 的 成 功率 。 更 好 的 
攻击 是 选择 明文 (chosen plaintext) 攻击 ， 这 种 攻击 向 发 送 方 加 入 一 些 有 可 能 会 被 传送 的 
这 息 ， 例 如 ， 在 战 时 就 发 生 过 这 样 的 事情 。 

因此 ， 最 好 的 密码 算法 可 以 防止 攻击 者 在 同时 知道 明文 和 密 文 时 推测 出 密 钥 。 这 使 得 
攻击 者 除了 测试 所 有 可 能 的 密 钥 BE, BI” RR) 外 别 无 选择 。 如 采 密 钥 为 n 位 ， 
那么 有 2" 个 可 能 的 密 钥 a 位 中 的 每 一 位 可 以 是 0 或 1) 。 攻 击 者 可 能 非常 对 运 ， 能 马上 测 
试 到 正确 的 密 铀 ， 也 可 能 非常 不 走运 ， 需 要 测试 所 有 2" 个 可 能 的 值 。 发 现 正确 密 铀 值 的 平 
均 猜 测 次 数 介 于 这 两 种 极端 情况 之 间 ， 即 2"/2。 可 以 通过 选择 足够 大 的 密 钥 空间 以 及 使 检 
测 密 钥 的 运算 的 代价 足够 高 ， 使 得 这 种 搜索 在 计算 上 不 可 行 。 但 由 于 计算 速度 不 断 提 高 ， 
使 得 以 前 不 可 行 的 计算 变 得 可 行 ， 因 此 这 种 措施 也 很 困难 。 另 外 ， 虽 然 我 们 关注 数据 在 网 
络 上 传输 时 的 安全 ， 即 数据 只 在 一 个 较 短 的 时 间 间 隔 内 可 能 受到 威胁 。 一 般 来 说 ， 人 们 应 
该 考虑 对 于 需要 在 文档 中 保存 几 十 年 的 数据 可 能 受到 的 威胁 。 这 需要 使 用 相当 大 的 密 钥 。 
为 一 方面 ， 大 密 钥 也 使 得 加 密 和 人 解密 更 慢 ，。 

大 部 分 密码 算法 是 分 组 密码 算法 (block cipher)， 它 们 被 定义 为 将 固定 长 度 的 明文 分 
组 作为 输入 ， 典 型 值 为 64 位 或 128 位 。 用 分 组 密码 算法 独立 地 加 密 每 一 个 分 组 一 一 常 称 
为 电码 本 模式 (Electronic Codebook (ECB) mode) 加 密 一 一 其 缺点 是 给 定 的 明文 分 组 总 
是 产生 相同 的 密 文 分 组 。 因 此 从 密 文 中 重复 重 现 的 分 组 能 够 识别 出 明文 中 的 重复 分 组 ， 这 
使 得 密码 分 析 者 更 容易 破译 密码 。 | 

为 了 避免 上 述 问 题 ， 分 组 密码 通常 使 分 组 的 密 文 根据 上 下 文 的 不 同 而 变化 ， 从 而 增加 
强度 。 增 强 分 组 密码 强度 的 方法 称 为 操作 模式 (modes of operation) 。 一 种 常用 的 操作 模 
式 是 密码 分 组 链 (Cipher Block Chaining, CBC) 模式 。 在 CBC 模式 下 ， 每 一 个 明文 分 组 
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在 被 加 密 前 都 与 前 一 分 组 的 密 文 异 或 。 结 果 是 每 一 个 密 文 分 组 都 部 分 地 依赖 前 面 的 所 有 分 
组 〈 即 依赖 于 上 下 文 ) 。 因 为 第 一 个 明文 分 组 前 没有 = ——__, 
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其 他 分 组 ， 因 此 与 一 个 随机 数 异 或 。 这 个 随机 数 称 | 芝 
为 初始 化 向 量 〈Jnitialization Vector，IV)， 与 一 系 | 


列 密 文 分 组 一 起 发 送 以 便 明文 的 第 一 分 组 能 被 解密 。 | 一 二 二 二 ——| 
图 8-2 说 明了 这 种 模式 。 另 一 种 操作 模式 是 计数 器 模 一 一 一 一 一 
A (counter mode)， 计 数 器 的 连续 的 值 (如 1，2， 
3，…)》 被 结合 到 连续 明文 分 组 的 加 密 过 程 中 ， 





8.1.2 ”对称 密 钥 密码 


在 对 称 密 铀 密码 中 ， 两 个 参与 者 9 共享 一 个 秘密 | | 
密 铀 。 换 句 话说， 如果 用 一 个 特定 的 密 钥 加 密 了 一 mm 
条 消息 ， 也 必须 要 使 用 相同 的 密 钥 来 解密 该 消息 。 
如 有 果 图 8-1 描述 的 是 一 个 对 称 密 销 密码 ， 那 么 加 密 和 
解密 密 铀 应 该 是 相同 的 。 对 称 密 钥 密 码 也 称 为 秘密 
密 钥 密码 ， 因 为 共享 的 密 钥 一 定 是 只 有 参与 者 才 知 道 。 (我们 将 在 后 面 看 到 替代 方案 一 一 
AHR.) | 

美国 国家 标准 与 技术 研究 所 (NIST) 已 经 颁布 了 一 系列 对 称 密 钥 密码 标准 。 数 据 加 
密 标 准 (Data Encryption Standard, DES) 是 其 中 的 第 一 个 ， 它 经 受 住 了 时 间 的 考验 ， 还 
没有 发 现 比 亦 万 攻击 更 好 的 密码 分 析 攻 击 。 然 而 ， 蛮 力 攻击 的 速度 已 经 变 得 很 快 。DES 的 
密 铀 有 56 个 独立 位 〈 虽 然 密 钥 的 总 长 度 是 64 位 ， 但 每 一 个 字 节 的 最 后 一 位 是 奇偶 校 验 
位 ) ， 这 对 于 有 目前 的 处 理 器 来 说 太 小 了 。 正 如 前 面 提 到 的 ， 平 均 需 要 搜索 2% 个 可 能 的 密 钠 
空间 的 一 半 来 找到 正确 的 密 钢 ， 即 2°° 三 3.6X100 个 密 铀 。 这 看 起 来 好 像 很 多 ， 但 这 种 搜 
索 可 以 高 度 并 行 化 ， 因 此 将 可 以 控制 的 尽 可 能 多 的 计算 机 都 用 于 执行 该 任务 是 可 能 的 ， 而 
现在 很 容易 找到 数 千 台 计算 机 (例如 ，Amazon. com 可 以 以 每 小 时 几 美 分 的 价格 向 你 出 租 
计算 机 ) 。 到 20 世纪 90 年 代 后 期 ， 在 几 小 时 内 搜索 到 DES 密 钥 已 成 为 可 能 。 因 此 ，NIST 
在 1999 年 更 新 了 DES 标准 ， 指 出 DES 应 该 只 用 于 遗留 系统 中 。 

NIST 还 标准 化 了 三 重 DES (Triple DES，3DES) ， 它 实际 上 通过 增加 密 钥 长 度 来 有 
效 地 抵抗 对 DES 的 密码 分 析 。3DES BHAA 168 (=3X56) 个 独立 的 位 ， 被 用 作 三 个 
DES 密 钥 ,分 别称 为 DES-keyl, DES-key2 和 DES-key3, FAH 3DES 加 密 明 文 分 组 时 ， 先 
用 DES-keyl 对 该 分 组 做 DES 加 密 ， 然 后 用 DES-key2 对 结果 分 组 做 DES 解密 ， 最 后 用 
DES-key3 对 上 一 步 的 结果 做 DES 加 密 。 解 密 包 括 用 DES-key3 解密 ， 然 后 用 DES-key2 加 
密 ， 最 后 用 DES-keyl fA. O 

虽然 3DES 解决 了 DES 的 密 钥 长 度 问 题 ， 但 它 继承 了 其 他 一 些 不 足 。DES/3DES 的 
软件 实现 较 慢 ， 原 因 是 IBM 最 初 设计 DES 时 是 为 了 用 硬件 实现 。 另 外 ，DES/3DES 使 用 


(AUFERO) 
图 8-2 密码 分 组 链 (CBO) 








CQ ”我们 使 用 术语 参与 者 (participant) 代表 参与 一 个 安全 通信 的 实体 ， 因 为 我 们 曾 在 整 本 书 中 使 用 该 术语 来 表示 
一 个 信道 的 两 端 。 在 安全 领域 ， 他 们 一 般 称 作 负 责 人 〈principal) 。 

昌 ”3DES 加 密 时 使 用 以 DES-key2 为 密 钥 的 DES 解密 的 原因 是 为 了 与 遗留 DES 系统 互 操 作 。 如 果 一 个 遗留 DES 
系统 使 用 单个 密 钥 ， 那 么 一 个 3DES 系统 将 那个 密 钥 用 作 DES-keyl, DES-key2 和 DES-key3， 就 能 够 实现 相 
同 的 加 密 功 能 。 在 前 两 步 ， 我 们 用 相同 的 密 钥 先 加 密 再 解密 ， 能 够 产生 原始 明文 ， 然 后 我 们 再 加 密 。 


64 位 的 分 组 大 小 ， 而 更 大 的 分 组 会 更 高 效 且 更 安全 。 

3DES 正在 被 NIST Æ 2001 年 发 布 的 高 级 加 密 标 准 (Advanced Encryption Standard, 
AES) 所 替代 。 该 标准 所 选择 的 密码 算法 (经 过 一 些 较 小 的 改动 ) 最 初 根 据 发 明 者 的 名 字 
Daemen 和 Rijmen 而 命名 为 Rijndael， 发 音 类 似 于 “Rhine Dahl”, AES 支持 128 位 、192 
位 或 256 位 的 密 钥 长 度 ， 分 组 长 度 为 128 fiz, AES 用 硬件 和 软件 都 可 以 快速 实现 。 它 不 需 
要 太 多 内 存 ， 因 此 适用 于 小 型 移动 设备 。AES 具有 一 些 数学 上 已 证 明 的 安全 属性 ， 并 且 
截至 到 撰写 本 书 时 ， 还 没有 已 知 的 成 功 攻击 .9 





8.1.3 公 钥 密码 


对 称 密码 的 一 个 鞭 代 方案 是 非 对 称 或 公 钥 密码 。 公 钥 密 码 使 用 一 对 相关 的 密 铀 ， 一 个 
用 于 加 密 ， 另 一 个 用 于 解密 ， 而 不 是 在 两 个 参与 者 之 间 共 享 一 个 密 钥 。 这 对 密 钥 只 属于 一 
个 参与 方 。 密 铀 拥有 者 要 保密 解密 密 钥 ， 因 此 只 有 密 钥 拥有 者 能 够 解密 消息 ， 这 个 密 钥 被 
称 为 私 铀 (private key) 。 密 钥 拥 有 者 将 加 密 密 钥 公 开 ， 因 此 任何 人 都 可 以 为 密 钥 拥有 者 
加 密 消息 ， 这 个 密 钥 被 称 为 公 钢 (public key) 。 显 然 ， 为 了 使 该 方案 奏效 ， 必 须 保证 不 能 
从 公 钥 推算 出 私 钥 。 因 此 ， 一 个 参与 方 能 够 得 到 公 钥 并 发 送 加 密 后 的 消息 给 公 钥 的 拥有 
者 ， 并 且 只 有 私 钥 的 拥有 者 可 以 解密 消息 。 图 8- 3 描述 了 这 种 情况 。 





图 8-3” 公 和 钥 加 密 





因为 上 述 方案 不 太 直 观 ， 因 此 我 们 强调 公共 的 加 密 密 钥 对 解密 消息 是 没有 用 的 一 一 如 
果 你 没有 私有 的 解密 密 钥 ， 你 其 至 不 能 解密 你 自己 加 密 的 消息 。 如 果 你 将 密 钥 看 作 在 参与 
者 之 间 定 义 一 个 通信 信道 ， 那 么 公 钥 密码 和 对 称 密码 的 另 一 个 区 别 是 信道 的 拓扑 。 对 称 密 
码 的 密 钥 提供 的 是 参与 者 之 间 的 双向 信道 ， 每 一 个 参与 者 都 有 相同 的 《对称 的 ) 密 钥 ， 任 
何 一 方 都 能 在 任何 一 个 方向 上 加 密 或 解密 消息 。 与 之 相 比 ， 公 钥 / 私 钥 对 提供 了 一 个 从 有 
公 钥 的 每 个 人 到 (唯一 的 ) 私 钥 拥有 者 之 间 的 多 对 一 的 单 向 信道 ， 如 图 8-3 所 示 。 





”任何 比 纯粹 的 蛮 力 付出 更 小 的 计算 开销 而 能 够 发 现 明文 的 行为 在 技术 上 都 被 归 类 成 攻击 ， 现在 已 经 发 表 了 一 
些 针 对 AES 的 攻击 。 虽 然 这 些 攻击 比 蛮 力 好 ， 但 它们 的 计算 量 仍 然 很 大 。 
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公 钥 密码 的 另 一 个 重要 特性 是 私有 “解密 ” 密 铀 可 以 与 加 密 算法 一 起 使 用 来 加 密 消 
. 息 ， 因 此 这 些 消息 只 能 用 公共 的 “加 密 ” 密 钥 来 解密 。 这 个 特性 显然 对 机 密 性 不 起 作用 ， 
因为 有 公 钥 的 任何 人 都 能 够 解密 这 样 的 消息 。( 确 实 ， 对 于 两 个 参与 者 之 间 的 双向 机 密 性 ， 
每 一 个 参与 者 都 需要 自己 的 密 钥 对 ， 并 且 每 一 方 都 用 另 一 方 的 公 钥 加 密 消 息 .) 。 然 而 ， 这 
个 特性 对 于 认证 有 用 ， 因 为 它 告诉 消息 的 接收 者 这 样 的 消息 只 能 由 密 钥 的 拥有 者 创建 (有 
关 假 设 会 在 后 面 讨论 ) E 8-4 描述 了 这 种 情况 。 从 图 中 可 以 清楚 地 看 到 ， 任 何 有 公 钥 的 
人 能 够 解密 被 加 密 的 消息 ， 假 设 解密 后 的 结果 与 期 望 的 结果 匹配 ， 那 么 可 以 断定 加 密 是 用 
私 钥 完成 的 。 这 种 操作 如 何 用 于 提供 认证 是 8. 3 节 的 主题 。 正 如 我 们 将 要 看 到 的 ， 公 钥 密 
码 主要 用 于 认证 和 秘密 地 分 发 对 称 密 钥 ， 而 消息 的 保密 则 依赖 对 称 密 码 。 
私 铀 A 
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图 8-4 使 用 公 钥 的 认证 


一 段 有 趣 的 历史 ， 公 钥 密码 的 概念 最 早 由 Diffie 和 Hellman Æ 1976 年 发 表 。 然 而 ， 
有 资料 证 明 英 国 的 通信 电子 安全 小 组 CCommunications-Electronics Security Group) 在 
1970 年 就 发 现 了 公 钥 密码 ， 而 美国 国家 安全 局 CNSA) 则 声明 他 们 在 20 世纪 60 年 代 中 
期 就 发 现 了 。 

最 著名 的 公 钥 密码 是 RSA， 根 据 其 发 明 者 Rivest, Shamir 和 Adleman 的 名 字 命 名 。 
RSA 依赖 于 大 数 因 子 分 解 的 极 大 计算 开销 。 找 到 分 解 大 数 的 有 效 方法 是 在 1978 年 RSA 出 
现 以 前 的 很 长 时 间 内 一 直 没 有 被 数学 家 成 功 解 决 的 问题 ， 因 此 RSA 对 密码 分 析 者 的 抵抗 
力 进 一 步 增强 了 人 们 对 其 安全 性 的 信心 。 不 幸 的 是 ，RSA 需要 相对 较 大 的 密 铀 来 保证 安 
全 ， 至 少 1024 位 。 这 比 对 称 密码 的 密 铀 要 大 ， 因 为 通过 分 解 产生 密 铀 对 的 大 数 来 破解 
RSA 私 钥 比 通过 穷 举 所 有 密 钥 空间 来 破解 要 快 。 

另 一 公 钥 密码 是 EIGamal。 就 像 RSA 一 样 ，ElGamal 也 依赖 于 数学 问题 离散 对 
数 问题 ， 至 今 还 没有 找到 有 效 的 解决 方法 ， 并 且 需 要 至 少 1 024 位 的 密 钥 。 当 输入 是 椭圆 
曲线 时 ， 就 出 现 了 离散 对 数 问题 的 一 个 变形 ， 一 般 认 为 这 个 问题 更 难 计算 。 基 于 这 个 问题 
的 密码 机 制 称 为 椭圆 曲线 密码 (elliptic curve cryptography). 

不 涵 的 是 ， 公 和 钥 密 人 码 比 对 称 密 码 慢 好 几 个 数量 级 。 因 此 ， 对 称 密 码 用 于 绝 大 部 分 加 
密 ， 而 公 钥 密码 则 用 于 认证 ( 见 8. 1.4 节 ) 和 密 钥 建立 Cl 8. 2 节 )， 








8.1.4 认证 码 


加 密 本 身 不 能 提供 数据 完整 性 。 例 如 ， 仅 仅 随机 修改 一 条 密 文 消息 可 能 解密 出 看 上 去 
有 效 的 明文 ， 在 这 种 情况 下 ， 接 收 方 无 法 检测 到 算 改 。 加 密 本 身 也 不 能 提供 认证 。 如 果 消 
息 已 经 不 是 原始 消息 了 ， 而 确认 该 消息 来 自 特定 的 人 是 没有 意义 的 。 从 某 种 程度 上 讲 ， 完 
整 性 和 认证 在 本 质 上 是 不 可 分 割 的 。 
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A (authenticator) 是 一 个 值 ， 包 含 在 被 传输 的 消息 中 ， 可 用 于 同时 验证 消息 的 
真实 性 和 数据 完整 性 。 我 们 将 在 8. 3 节 讨 论 认 证 码 在 协议 中 的 使 用 。 在 这 里 ， 我 们 侧重 于 ， 
认证 码 的 生成 算法 。 . . 

”你 应 该 还 记得 我 们 在 2. 4. 3 节 讲 了 校 验 和 以 及 循环 元 余 校 验 CCRC) 一 一 在 原始 消息 
上 添加 一 些 信息 并 一 起 发 送出 去 一 一 是 检测 消息 因 比 特 差错 而 被 无 意 中 修 改 的 方法 。 类 似 
的 概念 也 适用 于 认证 码 ， 对 于 某 些 人 故意 破坏 消息 而 不 想 被 检测 到 的 情况 增加 了 挑战 。 为 
了 支持 认证 ， 认 证 码 包含 一 些 证 据 来 证 明 创 建 该 认证 码 的 人 知道 一 个 只 有 所 声称 的 消息 发 
送 方才 知道 的 秘密 。 例 如 ， 这 个 秘密 可 能 是 一 个 密 钥 ， 证 据 则 是 用 这 个 密 钥 加 蜜 的 值 。 元 
余 信 息 的 形式 与 秘密 证 据 的 形式 是 相关 的 。 我 们 会 讨论 几 种 可 行 的 结合 方式 。 

我 们 先 假设 原始 消息 不 需要 保密 一 一 被 传输 的 消息 由 原始 消息 明文 加 上 认证 码 组 成 。 
然后 ， 我 们 会 考虑 需要 保密 的 情况 。 

有 一 类 认证 码 将 加 密 与 密码 散 列 函数 (cryptographic hash function) 结合 。 蜜 码 散 列 
算法 被 当 作 公开 信息 ， 就 像 密码 算法 一 样 。 密 码 散 列 函 数 〈 也 称 为 密码 校 验 和 (crypto- 
graphic checksum)) 是 一 种 输出 有 关 消息 的 足够 元 余 信息 来 发 现任 何 自 改 的 函数 。 就 像 校 
验 和 或 CRC 能 发 现 由 噪声 链 路 引起 的 比特 差错 ， 密 码 校 验 用 于 发 现 攻 击 者 的 蓄意 破坏 。 
它 输出 的 值 称 为 消息 摘要 (message digest) ， 就 像 传 统 校 验 和 一 样 ， 被 追加 在 消息 后 。 不 
管 原始 消息 有 多 长 ， 一 个 给 定 的 散 列 函数 产生 的 所 有 消息 摘要 都 具有 相同 的 位 数 。 因 为 所 
有 可 能 的 输入 消息 空间 比 可 能 的 消息 摘要 空间 大 ， 就 会 出 现 不 同 输入 消息 产生 相同 消息 摘 
要 的 情况 ,就 像 散 列表 中 的 碰撞 。 | 

通过 加 密 消息 摘要 能 够 创建 认证 码 。 接 收 方 计算 消息 明文 部 分 的 摘要 ， 并 与 解密 后 的 
消息 摘要 对 比 。 如 果 二 者 相等 ， 那 么 接收 方 可 以 断定 该 消息 的 确 来 自 所 声称 的 发 送 方 〈 因 
为 该 消息 一 定 曾经 被 正确 的 密 钥 加 密 过 ) 并 且 没 有 被 自 改 。 攻 击 者 无 法 发 送 一 条 伪造 消息 
和 与 之 匹配 的 伪造 摘要 并 能 逃脱 检测 ， 因 为 他 没有 正确 加 密 伪 造 摘 要 所 需 的 密 铀 。 然 而 ， 
攻击 者 能 够 监听 得 到 原始 的 明文 消息 及 其 被 加 密 的 摘要 。 然 后 攻击 者 计算 原始 消息 的 摘要 
( 散 列 函数 是 公开 的 )， 并 产生 蔡 换 消息 ， 从 中 寻找 具有 相同 消息 摘要 的 消息 。 如 果 找 到 这 
样 的 一 条 消息 ， 就 能 将 新 消息 与 旧 认 证 码 一 起 发 送 而 不 被 检测 到 。 因 此 ， 要 保证 安全 性 ， 




















就 要 求 散 列 函数 具有 单 向 性 (one-way): 攻击 者 找到 与 原始 消息 具有 相同 摘要 的 明文 消息 
在 计算 上 是 不 可 行 的 。 


对 于 能 够 满足 要 求 的 散 列 函数 ， 其 输出 必须 均匀 地 随机 分 布 。 例 如 ， 如 果 摘 要 长 度 为 
128 位 ， 并 且 随 机 分 布 ， 那 么 为 了 找到 与 给 定 消息 摘要 匹配 的 另 一 条 消息 ,平均 需要 测试 
237 条 消息 。 如 果 输 出 不 是 随机 分 布 的 即 某 些 输出 比 其 他 输出 更 有 可 能 一 一 那么 对 于 
某 些 消息 ， 更 容易 找到 具有 相同 摘要 的 另 一 条 消息 ， 这 会 降低 该 算法 的 安全 性 。 如 果 你 只 
是 试图 找到 碰撞 (collision) 一 一 产生 相同 摘要 的 两 条 消息 一 一 那么 你 平均 要 计算 2% A 
居 的 摘要 。 这 个 惊人 的 事实 正 是 “生日 攻击 ”的 基础 更 多 细 广 请 参考 习题 。 

最 常用 的 密码 散 列 算法 包括 消息 摘要 5 (Message Digest 5, MD5) 和 安全 散 列 函数 1 
(Secure Hash Algorithm 1，SHA-1)。MD5 输出 128 位 的 摘要 ，SHA-1 输出 160 位 的 摘 
要 。 人 们 发 现 MD5 的 弱点 已 经 有 一 段 时 间 了 ， 因 此 建议 将 MD5 换 成 SHA-1。 就 在 最 近 ， 
研究 者 发 现 了 比 蛮 力 攻击 高 效 一 些 的 SHA-1 碰撞 发 现 技 术 ， 但 该 技术 在 计算 上 还 不 可 行 。 
里 然 碰撞 攻击 (collision attack 以 发 现 碰 接 为 基础 的 攻击 ) 不 像 原 像 攻击 (preimage 
以 发 现 与 给 定 消息 碰撞 的 另 一 条 消息 为 基础 的 攻击 ) 的 风险 大 ， 但 都 是 严重 的 
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脆弱 点 。NIST 已 提出 到 2010 年 停止 使 用 SHA-1, STE AE SHA 的 四 种 变形 组 成 的 
SHA-2。 目 前 正在 上 演 设 计 新 散 列 SHA-3 的 竞争 。 

在 生成 加 密 消 息 摘 要 时 ， 摘 要 的 加 密 可 以 使 用 对 称 密 钥 密 码 或 公 钥 密码 。 如 果 使 用 公 
钥 密 码 ， 用 发 送 方 的 私 钥 加 密 ( 私 钥 一 般 被 认为 用 于 解密 )， 接 收 方 或 其 他 人 可 以 用 发 送 
方 的 公 铀 解密 摘要 ， | 

通过 公 钥 算法 用 私 钥 加 密 的 摘要 称 为 数字 签名 (digital signature) ， 因 为 它 像 手 写 签 
名 一 样 提供 了 不 可 否认 性 。 接 收 方 收 到 带 有 数字 签名 的 消息 后 ， 外 够 向 第 三 方 证 明 发 送 方 
的 确 发 送 了 该 消息 ， 因 为 第 三 方 能 够 使 用 发 送 方 的 公 铀 自己 做 验证 。 (用 对 称 密 钥 加 密 的 
摘要 不 具备 该 特性 ， 因 为 只 有 两 个 参与 者 知道 密 钥 ;另外 ， 因 为 两 个 参与 者 都 知道 密 钥 ， 
所 谓 的 接收 方 有 可 能 目 己 创建 了 该 消息 )。 任 何 公 钥 密 码 都 可 被 用 于 数字 签名 。 数 字 签 名 
标准 (Digital Signature Standard, DSS) 是 一 种 已 被 NIST 定义 为 标准 化 的 数字 签名 格 
Ao DSS 签名 可 以 使 用 三 种 公 钥 密码 中 的 任何 一 种 ， 一 种 基于 RSA， 另 一 种 基于 ElGam- 
al， 第 三 种 称 为 椭圆 曲线 数字 签名 算法 (Elliptic Curve Digital Signature Algorithm), 

男 一 类 认证 码 与 上 述 认 证 码 类 似 ， 但 不 加 密 散 列 值 ， 而 是 使 用 一 个 类 散 列 函数 ， 以 一 
个 秘密 值 〈 只 有 发 送 方 和 接收 方 知 道 ) 为 参数 ， 如 图 8-5 所 示 。 该 函数 输出 一 个 认证 码 ， 
称 为 消息 认证 码 (Message Authentication Code，MAC) 。 发 送 方 将 MAC 附加 到 明文 消息 
后 ， 接 收 方 用 明文 和 秘密 值 重新 计算 MAC， 并 将 重 计算 的 MAC 与 接收 到 的 MAC 相 比较 . 
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a) 计算 MAC O b HMAC 
图 8-5 计算 MAC 与 HMAC 


MAC 的 一 种 常见 变形 是 对 明文 消息 和 秘密 值 的 串 接应 用 密码 散 列 Can MD5 或 SHA- 
1)， 如 图 8-5 所 示 。 所 得 到 的 摘要 称 为 散 列 的 消息 认证 码 (Hashed Message Authentica- 
tion Code，HMAC) ， 因 为 其 本 质 上 是 MAC。 附 加 到 明文 消息 上 的 是 HMAC 而 不 是 秘密 
值 。 只 有 知道 秘密 值 的 接收 方才 能 够 计算 出 正确 的 HMAC， 并 与 接收 到 的 HMAC 比较 。 
如 果 不 是 因为 散 列 函数 具有 单 向 特性， 那么 攻击 者 就 可 能 找到 产生 该 HMAC 的 输入 并 将 
它 与 明文 消息 相 比 较 以 便 确 定 该 秘密 值 。 

到 目前 为 止 ， 我 们 假设 消息 是 不 保密 的 ， 因此 原始 消息 可 以 以 明文 形式 传输 ， 为 了 对 
带 有 认证 码 的 消息 提供 机 密 性 ， 只 要 加 密 整 个 消息 及 其 认证 码 一 一 MAC、HMAC 或 被 加 
密 的 摘要 就 足够 了 。 记 住 ， 在 实际 中 ， 机 密 性 是 用 对 称 密 钥 密码 实现 的 ， 因 为 它们 比 公 铀 
密码 快 得 多 。 此 外 ， 将 认证 码 包含 在 加 密 过 程 中 而 增加 的 开销 很 小 ， 且 增强 了 安全 性 。 一 


种 常见 的 简化 方法 是 加 密 消 息 及 其 《〈 原 始 ) 摘要， 这 样 摘 要 只 需 加 密 一 次 ， 在 这 种 情 帝 
下 ， 整 个 密 文 消息 被 当 作 认 证 码 。 

虽然 认证 码 看 上 去 好 像 解 决 了 认证 问题 ， 但 我 们 在 8. 3 节 将 会 看 到 这 只 是 解决 方案 的 
基础 。 然 而 ， 我 们 首先 要 解决 的 是 参与 者 如 何 获得 密 铀 的 问题 。 


8.2 密 钥 预 分 发 


要 使 用 密码 和 认证 码 ， 通 信 参 与 者 需要 知道 使 用 什么 密 钥 。 对 于 对 称 密 钥 密码 来 说 ， 
如 何 让 一 对 参与 者 得 到 所 共享 的 密 钥 ? 对 于 公 钥 密码 来 说 ， 参 与 者 如 何 知 道 公 钥 属 于 哪个 
特定 的 参与 者 ? 这 两 个 问题 的 答案 根据 密 钥 是 短期 的 会 话 密 钥 (session keys) 还 是 长 期 
的 预 分 发 密 钥 (predistributed keys) 而 不 同 。 

会 话 密 钥 用 于 保护 持续 时 间 相 对 较 短 的 单个 通信 (一 个 会 话 ) 的 安全 。 一 对 参与 者 之 
间 的 每 一 个 不 同 会 话 使 用 一 个 新 的 会 话 密 钥 。 为 了 加 快速 度 ， 会 话 密 钥 一 般 是 对 称 密 铀 。 
参与 者 通过 协议 一 一 会 话 密 钥 建立 协议 一 一 决定 使 用 哪个 会 话 密 钥 。 会 话 密 钥 建 立 协议 本 
身 应 该 是 安全 的 〈 只 有 这 样 ， 攻 击 者 才 不 能 得 到 新 的 会 话 密 铀 ) ， 其 安全 性 是 以 长 期 的 预 
分 发 密 钥 为 基础 的 。 

之 所 以 将 会 话 密 钥 与 预 分 发 密 钥 分 离 ， 有 如 下 几 个 原因 : 

。 限制 密 钥 总 的 使 用 时 间 能 够 减少 进行 计算 密集 型 攻击 的 时 间 ， 减少 密 码 分 析 者 可 

用 的 密 文 ， 同 时 也 减少 了 当 密 钥 被 破解 时 泄漏 的 信息 。 
。 对 对 称 密 钥 进行 预 分 发 是 有 问题 的 。 
。 公 钥 密 码 更 适合 认证 和 会 话 密 钥 分 发 ， 但 如 果 用 于 加 密 整 个 消息 来 提供 机 密 性 则 





本 节 将 说 明 预 分 发 密 钥 是 如 何 分 发 的 ，8. 3 节 将 解释 会 话 密 钥 是 如 何 建立 的 。 在 下 文 
中 我 们 用 “Alice” 和 “Bob” 来 代表 参与 者 ， 这 种 方法 在 密码 学 文献 中 很 常见 。 必 须要 记 
E, 虽然 我 们 用 拟人 化 的 术语 来 标识 参与 者 ， 但 经 常 要 考虑 的 情况 是 软件 或 硬件 实体 之 间 
的 通信 ， 如 客户 端 和 服务 器 ， 它 们 经 常 与 参与 的 人 没有 直接 关系 。 


8.2.1 公 钥 预 分 发 


用 于 产生 相 匹 配 的 公 钥 / 私 钥 对 的 算法 是 公开 的 ， 其 软件 也 是 公开 的 。 因 此 ， 如 果 AL 
ice 想 使 用 公 钥 密码 ， 她 可 以 产生 自己 的 公 钥 / 私 钥 对 ， 并 隐藏 私 钥 而 公开 公 钥 。 但 是 ， 她 
如 何 公开 自己 的 公 钥 呢 一 一 声明 该 公 钥 属于 她 一 一 其 他 参与 者 也 能 够 确保 该 密 钥 的 确 属于 
她 。 不 能 通过 电子 邮件 或 Web 来 公开 密 钥 ， 因 为 攻击 者 能 够 伪造 一 个 足 可 以 乱 真 的 声明 ， 
宣布 密 钥 工 属于 Alice， 而 事实 上 xz 属于 攻击 者 。 

用 于 证 明 公 钥 与 身份 之 间 的 绑 定 关系 〈 哪 个 密 钥 属 于 谁 ) 的 一 个 完整 的 方案 称 为 公 铀 
基础 设施 (Public Key Infrastructure, PKD. 。PKI 先 验证 身份 ， 然 后 以 带 外 方式 将 身份 绑 
定 到 密 钥 上。 我们 用 “ 带 外 ”表示 网 络 以 及 组 成 该 网 络 的 计算 机 以 外 的 东西 ， 就 像 下 面 描 
述 的 情况 。 如 果 Alice 和 Bob 是 相互 认识 的 个 体 ， 那么 他 们 可 以 在 同一 个 房间 见面 ，Alice 
可 以 把 她 的 公 钥 交 给 Bob， 也 许 会 写 在 一 个 名 片上 面 。 如 果 Bob 是 一 个 组 织 ， 而 Alice fe 
为 个 体 可 以 出 示 传 统 的 身份 信息 ， 可 能 包括 一 张 照片 或 指纹 。 如 果 Alice 和 Bob 是 同一 个 
公司 拥有 的 计算 机 ， 那 么 系统 管理 员 能 够 为 Bob 配置 Alice HAH. | 

带 外 建立 密 钥 的 方式 看 起 来 扩展 性 不 强 ， 但 对 于 启动 PKI 已 经 足够 了 。Bob 知道 AL 
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ice 的 密 钥 是 zx， 此 信息 能 够 通过 数字 签名 与 信任 概念 相 结合 的 可 扩展 方式 广泛 传播 。 例 
如 ， 假 设 你 已 经 在 带 外 收 到 了 Bob 的 公 钥 ， 那 么 你 完全 可 以 在 密 钥 和 身份 方面 信任 Bob. 
那么 Bob 可 以 给 你 发 送 一 条 消息 ， 声 明 Alice 的 密 钥 是 zx， 因为 你 知道 Bob 的 公 铀 ， 因 此 
能 够 认证 该 消息 来 自 Bob。( 记 住 ， 为 了 对 声明 进行 数字 签名 ，Bob 会 追加 一 个 用 他 的 秘 
钥 加 密 的 消息 的 密码 散 列 值 .) 因为 你 相信 Bob 会 说 实话 ， 所 以 你 知道 Alice WEE x, 
虽然 你 从 来 没有 见 到 过 她 ， 也 没有 与 她 交换 过 消息 。 使 用 了 数字 签名 ，Bob 甚至 不 需要 向 
你 发 送 消息 ， 他 可 以 只 是 简单 地 创建 并 发 布 一 个 被 数字 签名 的 声明 ， 说 明 Alice 的 公 钥 是 
Zz。 这 种 关于 公 钥 绑 定 关系 的 珊 有 签名 的 声明 称 为 公 钥 证 书 (public-key certificate) ， 或 简 
称 为 证 书 。Bob 可 以 向 Alice 发 送 该 证 书 的 一 份 拷贝 ， 或 者 将 它 发 布 在 网 站 上 。 当 有 人 需 
要 验证 Alice 的 公 钥 时 ， 只 要 他 们 相信 Bob 并 知道 他 的 公 钥 ， 他 们 就 能 得 到 该 证 书 的 找 
贝 ， 或 者 从 Alice 那儿 直接 获得 。 可 以 看 到 ， 从 寥寥 几 个 密 铀 (在 本 例 中 ， 只 有 Bob 的 公 
SD 开始 ， 随 着 时 间 的 推移 ， 你 能 够 建立 起 可 信 密 钥 的 大 集合 。Bob 在 本 例 中 扮演 的 角色 
通常 称 为 认证 机 构 «(Certification Authority，CA)， 而 且 当 前 因特网 的 安全 主要 依赖 于 
CA。Versign@ 是 一 个 著名 的 商业 CA。 我 们 会 在 下 面 继续 讨论 本 主题 。 

主要 的 证 书 标准 之 一 是 X. 509。 该 标准 的 很 多 细节 都 是 开放 的 ， 只 是 规定 了 一 个 基本 
结构 。 证 书 必 须 包含 : 

。 被 证 明 的 实体 的 身份 。 

。 被 证 明 的 实体 的 公 钥 。 

。 签发 者 的 身份 。 

。 数字 签名 。 

。 数字 签名 算法 标识 符 (使 用 了 哪个 密码 散 列 函 数 和 密码 算法 )。 

一 个 可 选 的 组 件 是 证 书 的 过 期 时 间 。 我 们 会 在 下 面 看 到 该 特征 的 一 个 具体 应 用 。 

因为 证 书 创 建 了 身份 与 公 钥 之 间 的 绑 定 关系 ， 所 以 我 们 应 该 更 深入 地 研究 “身份 ”的 
含义 。 例 如 ， 一 个 证 书 的 内 容 是 “该 公 钥 属于 John Smith”， 那 么 ， 如 果 你 不 能 区 分 该 证 
书 所 说 的 是 成 千 上 万 个 John Smith 中 的 哪 一 个 ， 那 么 该 证 书 的 用 处 就 不 大 。 因 此 ， 证 书 
必须 对 所 要 证 明 的 身份 使 用 有 明确 定义 的 命名 空间 ， 例 如 ， 经 常 为 电子 邮件 地 址 和 DNS 
域 颁发 证 书 。 

PKI 能 够 使 用 不 同方 法 来 形式 化 信任 表示 ， 我 们 讨论 两 种 主要 的 方法 。 

1. 认证 机 构 

在 该 信任 模型 中 ， 信 任 是 二 元 的 ， 你 要 么 完全 信任 某 个 人 或 者 完全 不 信任 他 。 与 证 书 
结合 就 能 创建 信任 链 (chains of trust). WR X 证 明 革 个 公 钥 属于 Y， 而 且 Y 进一步 证 明 
另 一 个 公 钥 属 于 Z， 那么 ,尽管 XX 和 2Z 从 未 见 过 面 ,仍然 存在 一 条 从 XX 到 2 的 证 书 链 。 如 
果 你 知道 入 的 密 钥 一 一 你 必须 信任 和 和 立 -一 那么 你 可 以 信任 那个 给 出 Z 的 密 钥 的 证 书 ， 
换 句 话说 ， 你 所 需要 的 只 是 一 个 证 书 链 ， 所 有 证 书 都 是 由 你 信任 的 实体 签名 的 ， 只 要 该 证 
书 链 能 够 回 到 某 个 已 知 的 实体 即 可 。 

认证 机 构 Ccertification authority/certificate authority, CA) #—~* WAEA) 声 
明 为 用 于 验证 和 颁发 证 书 的 可 信 实 体 。 有 商业 CA、 政 府 CA 甚至 免费 CA。 为 了 使 用 CA， 
你 必须 要 知道 其 密 钥 。 如 果 你 可 以 得 到 从 某 个 已 知 其 密 钥 的 CA 开始 的 签名 证 书 链 ， 那 么 
你 就 能 得 到 该 CA 的 密 钥 。 然 后 ， 你 就 可 以 相信 由 该 CA 签名 的 任何 证 书 。 





构建 这 种 链 的 流行 方法 是 用 分 层 的 树 形 结构 进行 排列 ， 如 图 8-6 所 示 。 如 果 每 个 人 有 
根 CA 的 公 铀 ， 那 么 任何 一 个 参与 者 可 以 向 另 一 个 参与 者 提供 一 个 证 书 链 ， 并 且 他 知道 这 
足以 为 那个 参与 者 建立 一 条 信任 链 。 
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关于 构建 信 认 链 还 有 一 些 重要 问题 。 最 重要 的 是 ， 即 使 你 确信 拥有 根 CA 的 公 钥 ， 也 
必须 保证 根 CA 下 面 的 每 个 CA 正常 工作 。 如 果 只 有 一 个 CA 愿意 为 没有 验证 身份 的 个 体 
颁发 证 书 ， 那 么 一 条 看 上 去 有 效 的 证 书 链 就 变 得 没有 意义 了 。 例 如 ， 根 CA 可 能 向 一 个 二 
层 CA 颁发 了 一 个 证 书 ， 证 明证 书 中 的 名 字 与 该 CA 的 企业 名 称 一 致 ， 但 这 个 第 二 层 CA 
可 能 希望 向 任何 提出 请 求 的 人 出 售 证 书 ， 而 且 不 需要 验证 身份 ， 信 任 链 越 长 ， 这 个 问题 就 
RE., X. 509 证 书 提供 了 一 个 选项 ， 能 限制 证 书 主体 可 以 依次 证 明 的 实体 集合 。 

一 个 证 书 链 可 能 有 多 个 根 ， 例 如 ， 这 种 情况 在 保护 当前 Web 交易 的 安全 时 就 很 常见 。 
Web 浏览 器 ， 如 Firefox 和 Internet Explorer， 已 经 预 装 了 一 个 CA 集合 的 证 书 。 Bsc bk, 
浏览 器 的 生产 者 已 经 确信 这 些 CA WR ET HEA fa). FBT A N a A fs 
的 实体 追加 证 书 。 安 全 套 接 字 层 / 传 输 层 安 全 (SSL/TLS) 接受 这 些 证 书 ，SSL/TLS 协议 
经 常用 于 保护 Web 事务 的 安全 ， 我 们 将 在 8. 4. 3 节 进 行 讨论 。( 如 果 你 感到 好 奇 ， 你 可 以 “ 
随便 看 一 下 浏览 器 的 偏好 设置 ， 找 到 “查看 证 书 ” 选 项 来 查看 你 的 浏览 器 被 设置 成 信任 多 
少 个 CA。) | | 

2. 信任 网 络 

另 一 种 信任 模型 是 以 恨 好 隐私 (Pretty Good Privacy, PGP) 为 例 的 信任 网 络 (web 
of trust) ， 该 模型 将 在 8. 4. 3 节 深 入 讨论 。PGP 是 用 于 电子 邮件 的 安全 系统 ， 因 此 与 公 铀 
绑 定 的 是 电子 邮件 地 址 ， 用 于 证 书签 名 的 也 是 电子 邮件 地 址 。PGP 的 初衷 是 抵抗 政府 的 人 
侵 ， 因 此 没有 使 用 CA。 相反 ， 每 个 个 体能 够 决定 信任 谁 ， 以 及 信任 他 们 的 程度 。 在 该 模 
型 中 ， 信 任 是 一 个 程度 问题 。 另 外 ， 公 钥 证 书 可 以 包含 一 个 信任 级 别 来 指明 签发 者 对 证 书 
中 公 钥 绑 定 的 信任 程度 。 因 此 ， 一 个 用 户 可 能 在 信任 一 个 密 钥 绑 定 前 不 得 不 获得 多 个 证 明 
该 绑 定 的 证 书 。 

例如 ， 假设 你 有 一 个 由 Alice 提供 的 针对 Bob 的 证 书 ， 你 可 能 给 该 证 书 指定 一 个 中 等 
信任 级 别 。 但 是 ， 如 果 你 还 有 其 他 由 C 和 D 提供 的 针对 Bob 的 证 书 ， 而 且 他 们 都 是 中 等 
可 信 的 ， 那 么 就 可 以 大 大 增加 你 对 该 公 钥 是 Bob 的 有 效 公 钥 的 信心 。 简 而 言 之 ，PGP 认 
为 建立 信任 的 问题 完全 是 个 人 的 事情 ， 为 用 户 提 供 原 始 资料 ， 并 让 他 们 做 出 自己 的 决定 ， 
而 不 是 假设 他 们 都 自愿 信任 CA 的 单一 层次 结构 。 引 用 PGP 的 开发 者 Phil Zimmerman 的 
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KUL, “PGP 是 为 喜欢 自己 打包 降落 锌 的 人 设计 的 。” 

PGP 在 网 络 界 已 经 相当 流行 ，PGP 密 钥 签名 聚会 成 为 IETF 会 议 的 一 个 特点 。 在 这 样 
的 聚会 上 , 个 人 可 以 : 

。 从 他 知道 号 份 的 其 他 人 那里 收集 公 饥 。 

。 把 自己 的 公 钥 提供 给 其 他 人 。 

。 获得 由 其 他 人 签署 的 自己 的 公 钥 ， 从 而 收集 对 不 断 扩 大 的 人 群 更 有 说 服 力 的 证 书 。 

。 签署 刀 外 一 些 人 的 公 铀 ， 从 而 帮助 他 们 建立 证 书 集合 ， 用 户 分 发 他 们 的 公 钼 。 

。 从 目 己 足 够 信任 的 签署 密 钥 的 其 他 人 那里 收集 证 书 。 | 

这 样 ， 随 着 时 间 的 推移 ， 一 个 用 户 会 收集 一 套 具 有 不 同 信任 程度 的 证 书 。 

3. 撤销 证 书 

由 证 书 引 发 的 一 个 问题 是 如 何 撤销 或 取消 一 个 证 书 。 这 个 问题 为 什么 重要 呢 ? 假设 你 
怀疑 某 人 已 发 现 了 你 的 私 铀 。 而 在 世界 上 可 能 有 任意 多 个 证 书 宣称 你 是 与 那个 私 钥 对 应 的 
公 钥 的 拥有 者 。 这 样 ， 发 现 你 的 私 铀 的 人 拥有 了 假冒 你 所 需 的 一 切 东 西 ， 有效 的 证 书 和 你 
的 私 铀 。 要 解决 这 个 问题 ， 最 好 能 取消 旧 的 被 泄露 的 密 钥 与 你 的 身份 绑 定 ， 使 得 假冒 者 不 
能 再 说 服 其 他 人 相信 他 就 是 你 。 

对 这 个 问题 的 基本 解决 方案 十 分 简单 。 每 个 认证 机 构 可 以 发 行 一 张 证 书 撤销 列表 
(Certificate Revocation List，CRL)， 它 是 一 个 经 过 数字 签名 的 被 撤销 的 证 书 的 列表 。 
CRL 定期 更 新 并 公开 。 因 为 它 是 经 过 数字 签名 的 ， 因 此 可 以 张贴 在 网 站 上 。 这 样 ， 当 Al- 
ice 接收 到 Bob 的 证 书 并 希望 验证 该 证 书 时 ，Alice 会 首先 查阅 CA 最 近 公布 的 CRL。 只 要 
证 书 未 被 撤销 ， 它 就 有 效 。 注 意 ， 如 果 所 有 证 书 都 有 无 限 的 有 效 期 ，CRL 就 会 变 得 越 来 
越 长 ， 因 为 担心 可 能 要 使 用 被 撤销 的 证 书 的 某 些 拷贝 ， 你 永远 不 会 从 CRL 中 去 掉 一 个 证 
书 。 因 此 ， 通 常会 在 颁发 证 书 时 附 上 有 效 日 期 。 这 样 ， 我 们 就 能 限制 被 撤销 的 证 书 需要 保 
留 在 CRL 上 的 时 间 。 只 要 它 过 了 最 初 设 定 的 有 效 日 期 ， 就 可 以 从 CRL 中 删除 它 。 


8.2.2 对 称 密 钥 预 分 发 


如 果 Alice 想 用 秘密 密 钥 密码 与 Bob 通信 ， 那 么 她 就 不 能 只 选择 一 个 密 钥 并 发 送 给 
他 ， 因 为 如 果 事 先 没 有 密 铀 ， 他 们 就 不 能 加 密 该 秘密 密 钥 以 便 保 密 ， 而 且 也 不 能 相互 认 
证 。 就 像 公 钥 一 样 ， 需 要 某 种 预 分 发 机 制 。 对 称 密 钥 的 预 分 发 比 公 钥 的 预 分 发 困难 ， 有 两 
个 主要 原因 : 

。 虽然 每 个 实体 只 需要 一 个 公 铀 就 能 够 满足 认证 和 保密 的 需要 ， 但 想 要 通信 的 每 一 

对 实体 必须 有 一 个 对 称 密 钥 。 如 果 有 NN 个 实体 ， 那 么 需要 NGCN 一 1)/2 个 密 钥 。 

。 与 公 钥 不 同 ， 秘 密 密 钥 必须 要 保密 。 

总 而 言 之 ， 需 要 分 发 更 多 的 密 铀 ， 而 且 你 不 能 使 用 任何 人 都 可 以 读 的 证 书 。 

最 常见 的 解决 方法 是 使 用 密 钥 分 发 中 心 (Key Distribution Center, KDC), KDC 是 一 
个 与 每 个 实体 都 共享 一 个 秘密 密 钥 的 可 信和 实体 。 这 就 将 密 钥 数量 降低 到 N 一 1 个 ， 因 此 更 
好 管理 ， 对 一 些 应 用 来 说 完全 可 以 在 带 外 建立 这 些 密 铀 。 当 Alice 希望 与 Bob 通信 时 ， 其 
通信 内 容 并 不 经 过 KDC。KDC 只 是 参与 认证 Alice 和 Bob 的 协议 一 一 使 用 KDC 已 经 与 他 
们 分 别 共 享 的 密 钥 一 一 并 为 他 们 生成 新 的 会 话 密 铀 。 然 后 Alice 和 Bob 直接 使 用 他 们 的 会 
话 密 钥 通 信 。Kerberos (J 8. 3. 3 P) 是 一 个 基于 该 方法 的 应 用 广泛 的 系统 。 
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8.3 认证 协议 

我 们 在 8. 1 节 描 述 了 如 何 加 密 消 息 和 创建 认证 码 ， 在 8. 2 节 介绍 了 如 何 预 分 发 必要 的 
密 钥 。 要 保护 协议 安全 ， 看 起 来 好 像 只 要 在 每 条 消息 后 追加 认证 码 并 在 需要 保密 的 时 候 加 
密 消 息 就 可 以 了 。 

实际 上 并 没有 这 么 简单 ， 有 两 个 原因 。 首 先 ， 存 在 重 放 攻 击 (replay attack) 的 问题 
攻击 者 重新 传送 一 条 以 前 发 送 过 的 消息 。 例 如 ， 如 果 该 消息 是 你 在 网 站 上 下 的 订单 ， 那 么 
重 放 的 消息 对 网 站 来 说 好 像 是 你 又 订购 了 一 份 同样 的 东西 。 虽 然 这 条 消息 不 是 最 初 的 那 条 
消息 ， 但 认证 码 依然 有 效 ; 毕 竞 该 消息 是 你 创建 的 ， 并 且 没 有 被 算 改 。 这 种 攻击 的 一 种 变 
形 叫 作 隐 藏 重 放 攻 击 (suppress-replay attack)， 攻 击 者 可 能 只 是 推迟 你 的 消息 〈 通 过 劫持 
消息 并 在 以 后 重 放 该 消息 来 实现 ) ， 从 而 使 该 消息 在 不 合适 的 时 候 被 接收 到 。 例 如 ， 攻 击 
者 可 以 将 你 的 股票 订单 从 一 个 合适 的 时 间 推 迟到 一 个 你 并 不 想 买 人 的 时 间 。 虽 然 这 条 消息 
从 某 种 意义 上 说 还 是 原始 的 ， 但 它 不 具有 时 效 性 。 原 始 性 和 时 效 性 可 以 看 作 完整 性 的 不 同 
方面 。 要 保障 这 两 个 方面 ， 在 大 部 分 情况 下 需要 一 个 重要 的 反复 的 协议 。 

另 一 个 我 们 还 没有 解决 的 问题 是 怎样 建立 会 话 密 钥 。 会 话 密 钥 是 在 通信 过 程 中 生成 的 
对 称 密码 密 钥 ， 只 用 于 一 次 会 话 ， 人 参见 8. 2 节 。 这 同样 也 包含 一 个 重要 的 协议 。 

这 两 个 问题 的 共同 点 是 认证 。 如 果 一 条 消息 不 是 原始 的 且 及 时 的 ， 那 么 从 实用 的 角度 
出 发 ， 我 们 和 希望 将 它 看 作 一 条 不 真实 的 消息 ， 并 不 来 源 于 它 所 声称 的 实体 。 另 外 ， 很 显 
然 ， 当 你 安排 与 某 人 共享 一 个 新 会 话 密 钥 时 ， 你 希望 知道 你 确实 与 正确 的 人 共享 了 密 铀 。 
通常 ， 认 证 协议 也 同时 建立 会 话 密 钥 ， 这 样 在 协议 结束 时 ，Alice 和 Bob 已 经 认证 了 对 方 
并 有 了 一 个 新 的 对 称 密 钥 。 如 果 没 有 新 会 话 密 钥 ， 协 议 只 能 在 某 个 时 间 点 认证 Alice 和 
Bob， 而 会 话 密 钥 允许 他 们 有 效 地 认证 后 续 的 消息 。 一 般 情 况 下 ， 会 话 密 钥 建 立 协议 执行 
认证 (一 个 值得 注意 的 例外 是 Diffie-Hellman, J 8. 3.4 节 )。 因 此 ， 术 语 认 证 协议 Cau- 
thetication protocol) 和 会 话 密 钥 建立 协议 (session key establishment protocol) 几乎 是 同 
义 的 。 

在 认证 协议 中 有 一 套 确 保 原 始 性 和 时 效 性 的 核心 技术 。 在 讨论 具体 协议 前 ， 我 们 先 描 
述 这 些 技术 。 

8. 3.1 原始 性 和 时 效 性 技术 

我 们 已 经 看 到 只 用 认证 码 并 不 能 使 我 们 检测 到 非 原始 的 或 不 及 时 的 消息 。 一 种 方法 是 

在 消息 中 包含 时 间 戳 。 显 然 ， 时 间 惟 本 身 必 须 是 防 自 改 的 ， 因 此 认证 码 必 须 涵盖 它 。 时 间 


截 的 主要 缺点 是 它们 需要 分 布 式 的 时 钟 同步 。 因 为 我 们 的 系统 会 依赖 于 同步 ， 因 此 时 钟 同 
步 除 了 常见 的 挑战 外 ， 也 需要 被 保护 以 抵抗 安全 威胁 。 另 一 个 问题 是 分 布 式 的 时 钟 只 能 在 








一 定 程 度 上 保持 同步 一 一 一 定 的 误差 幅度 。 因 此 ， 时 间 惟 提供 的 时 序 完 整 性 的 精确 度 只 能 
与 同步 的 程度 相当 。 | 


另 一 种 方法 是 在 消息 中 包含 一 个 当前 值 (nonce) 一 一 只 使 用 一 次 的 随机 数 。 参 与 者 
能 够 通过 检查 该 当前 值 是 否 曾 使 用 过 来 检测 重 放 攻击 。 不过， 这 需要 记录 以 前 使 用 的 当前 
值 ， 这 会 积累 大 量 的 数据 。 一 种 解决 方法 是 将 时 间 惟 和 当前 值 结合 起 来 ， 只 需要 当前 值 在 
一 定 的 时 间 范 围 内 保持 唯一 。 这 样 就 能 以 便于 管理 的 方式 保证 当前 值 的 唯一 性 ， 而 且 只 需 
要 时 钟 的 不 精确 同步 。 a 











解决 时 间 戳 和 当前 值 缺 点 的 另 一 种 方案 是 在 挑战 -响应 (challenge-response) 协议 中 
使 用 时 间 惟 和 当前 值 。 假 设 我 们 使 用 时 
间 戳 。 在 挑战 -响应 协议 中 ，Alice 向 Bob 
发 送 一 个 时 间 惟 ， 让 Bob 在 响应 消息 中 
加 密 该 时 间 惟 (如 果 他 们 共享 一 个 对 称 
密 钥 ) 或 者 对 该 时 间 戳 进行 数字 签名 
(如 果 Bob 有 一 个 公 铀 ， 如 图 8-7 Bra). 
被 加 密 的 时 间 戳 就 像 一 个 同时 证 明了 时 
效 性 的 认证 码 。Alice 能 够 很 容易 地 检查 
来 自 Bob 的 响应 消息 中 时 间 截 的 时 效 性 ， 
因为 该 时 间 惟 来 自 Alice 自己 的 时 钟 一 一 图 8-7 挑 成 - 啊 应 协议 
不 需要 分 布 式 的 时 钟 同步 。 再 假设 协议 使 用 当前 值 。 那 么 Alice 只 需要 跟踪 响应 消息 正在 
显示 的 当前 值 以 及 很 长 时 间 内 没有 被 显示 的 当前 值 ， 任 何 带 有 无 法 识别 的 当前 值 的 响应 都 
是 伪造 的 。 

挑战 -响应 的 优点 是 它 将 时 效 性 和 认证 结合 起 来 ， 因 为 只 有 Bob 知道 用 于 加 密 这 个 从 
未 出 现 过 的 时 间 戳 或 当前 值 的 密 钥 〈 如 果 是 对 称 密 钥 密码 ，Alice 也 知道 这 个 密 钥 ) ， 否 则 
协议 就 会 显得 异常 复杂 。 在 下 面 描述 的 大 部 分 认证 协议 中 都 使 用 时 间 戳 或 当前 值 。 


Alice Bob 


as 
B=Bob | 
Ti= 来 自 Alice 时 钟 的 时 间 惟 | 
-采用 Bob 私 钥 的 数 | 

B FES 


ass 





8.3.2 公 钥 认证 协议 


在 讲述 公 钥 认证 协议 前 ， 我 们 假设 已 经 通过 某 些 诸如 PKI 的 方法 ( 见 8. 2. 1 节 ) 预 分 
KT Alice 和 Bob 的 公 钥 。 这 也 包括 Alice 在 她 发 送 给 Bob 的 第 一 条 消息 中 包含 自己 证 书 
的 情况 以 及 Bob 在 收 到 Alice 发 送 的 第 一 条 消息 后 搜索 Alice 证 书 的 情况 。 

第 一 个 协议 ( 见 图 8-8) 依赖 于 Alice 和 Bob 的 时 钟 同步 。Alice 向 Bob 发 送 一 条 和 包含 
明文 时 间 戳 及 其 身份 和 数字 签名 的 消息 。Bob 用 数字 签名 来 认证 消息 ， 用 时 间 戳 来 验证 消 
息 是 否 是 新 消息 。Bob 回 送 一 条 消息 ， 包 含 明 文 时 间 惟 和 他 的 身份 ， 以 及 一 个 用 Alice 的 
公 钥 加 密 的 新 会 话 密 钥 〈 为 了 保密 ) ， 并 且 所 有 内 容 都 被 数字 签名 了 。Alice 能 够 验证 消息 
的 真实 性 和 时 效 性 ， 以 便 确定 这 个 新 会 话 密 钥 是 否 可 信 。 为 了 解决 时 钟 同步 不 精确 的 问 
题 ， 可 以 将 时 间 截 与 当前 值 结合 使 用 。 


aay in 
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B=Bob 
T= 时 间 堆 
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图 8-8 依赖 于 同步 的 公 钥 认证 协议 
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第 二 个 协议 GLE 8-9) 与 前 一 个 类 似 ， 但 不 依赖 于 时 钟 同 步 。 在 这 个 协议 中 ，Aljice 
还 是 向 Bob 发 送 一 条 包含 时 间 戳 及 其 身份 的 经 数字 签名 的 消息 。 因 为 他 们 的 时 钟 并 不 同 
步 ， 因 此 Bob 不 能 确定 该 消息 是 否 是 新 消息 。Bob 回 送 一 条 经 数字 签名 的 包含 Alice 的 原 
始 时 间 惟 、 他 自己 的 时 间 惟 以 及 他 的 身份 的 消息 。Alice 可 以 通过 将 她 的 原始 时 间 玲 与 她 
的 当前 时 间 相 比较 来 验证 消息 的 时 效 性 。 然 后 她 再 向 Bob 发 送 一 条 经 数字 签名 的 包含 Bob 
的 原始 时 间 戳 以 及 用 Bob 的 公 钥 加 密 的 新 会 话 密 钥 的 消息 。Bob 能 够 验证 消息 的 时 效 性 ， 
因为 该 时 间 截 来 自 他 的 时 钟 ， 以 便 确定 这 个 新 的 会 话 密 钥 是 否 可 信 。 时 间 戳 实际 上 充当 了 
一 种 便利 的 当前 值 ， 并 且 这 个 协议 的 确 可 以 使 用 当前 值 。 
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图 8-9 不 依赖 于 同步 的 公 钥 认证 协议 。Alice 只 将 时 间 玲 
与 她 自己 的 时 钟 比 对 ，Bob 也 只 做 类 似 的 比 对 


8.3.3 对 称 密 钥 认证 协议 


正如 8. 2. 2 节 所 说 的 那样 ， 只 有 在 比较 小 的 系统 中 为 每 一 对 实体 预 分 发 密 钥 才 是 可 行 
的 。 在 本 书 中 ， 我 们 重点 讨论 大 系统 ， 其 中 每 个 实体 都 有 自己 的 与 KDC 共享 的 主 密 铀 
(master key) 。 在 这 种 情况 下 ， 基 于 对 称 密 钥 的 认证 协议 包含 三 个 实体 ，Alice、Bob 和 
KDC。 该 协议 最 终 的 输出 是 Alice 和 Bob 之 间 共 享 的 会 话 密 钥 ， 他 们 可 以 使 用 该 密 钥 直 接 
通信 ， 而 不 需要 与 KDC 交互 。 

8-10 描述 了 Needham-Schroeder 认证 协议 。 » KDC 实际 上 并 不 认证 Alice WY. 
第 一 条 消息 ， 而 且 根 本 不 与 Bob 通信 。KDC 只 是 用 它 所 知道 的 Alice 和 Bob 的 主 密 钥 来 构 
造 一 条 对 于 除 Alice 以 外 的 人 都 没有 用 的 响应 消息 (只 有 Alice 可 以 解密 该 消息 )， 消 息 中 
包含 了 Alice 和 Bob 用 于 执行 认证 协议 剩余 步骤 所 需要 的 资料 。 

前 两 条 消息 中 的 当前 值 用 于 让 Alice 确认 KDC 的 响应 消息 是 新 的 。 第 二 条 和 第 三 条 消 
息 包含 新 的 会 话 密 钥 以 及 Alice 的 身份 ， 并 且 都 用 Bob 的 主 密 钥 加 密 。 这 是 一 种 对 称 密 铀 
版 本 的 公 钥 证 书 ， 它 实际 上 是 一 种 由 KDC 签名 的 声明 (因为 KDC 是 除 Bob 以 外 唯一 知道 
Bob 主 密 钥 的 实体 ) ， 该 声明 说 明了 所 包含 的 会 话 密 钥 属 于 Alice 和 Bob。 虽 然 最 后 两 条 消 
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图 8-10 Needham-Schroeder 认证 协议 





息 中 的 当前 值 用 于 让 Bob 确认 第 三 条 消息 是 真 的 ， 但 该 推理 有 一 个 缺陷 一 一 见习 题 4。 


Kerberos 

Kerberos 是 一 个 基于 Needham-Schroeder 协议 的 认证 系统 ， 专 门 用 于 客户 端 -服务 器 
环境 中 。 开 erberos 最 初 是 由 MIT 开发 的 ， 目 前 是 一 个 IETF 标准， 既 有 开源 产品 ， 又 有 
商业 产品 。 在 这 里 ， 我 们 关注 Kerberos 的 一 些 有 趣 的 创新 。 

Kerberos 的 客户 一 般 通 过 口令 来 认证 自己 。Alice 与 KDC 共享 的 主 密 钥 是 由 她 的 口令 
推算 出 的 一 一 如 有 果 你 知道 口令 ， 你 就 能 计算 出 密 铀 。Kerberos 假设 任何 人 都 能 够 通过 物理 
介质 访问 任何 客户 端 ， 因 此 不 但 要 在 网 络 中 ， 而 且 在 Alice 登录 的 任何 计算 机 上 ， 都 要 尽 
量 减 小 Alice AY O 4 @& it Be AY BY BBE. Kerberos 利用 Needham-Schroeder 来 实现 这 一 点 。 
在 Needham-Schroeder #1, Alice 唯一 一 次 使 用 口令 是 解密 来 自 KDC 的 响应 。Kerberos 的 
客户 端 软件 一 直 等 待 KDC 响应 的 到 来 ， 然 后 提示 Alice 输入 她 的 口令 ， 计算 主 密 钥 ,解密 
KDC 的 响应 ， 并 删除 所 有 有 关口 令 和 主 密 钥 的 信息 以 便 将 泄漏 口令 的 可 能 性 降 到 最 低 。 
还 要 注意 ， 用 户 意识 到 正在 使 用 Kerberos 的 唯一 标记 是 当 用 户 被 提示 输入 口令 时 。 

在 Needham-Schroeder 中 ，KDC 发 给 Alice 的 啊 应 有 两 个 作用 : 为 她 提供 了 一 种 证 明 
其 身份 的 方法 (只 有 Alice 能 解密 该 响应 ) ， 为 她 提供 了 一 种 能 够 展现 给 Bob BY Xt PK aR A 
证 书 或 “票据 ”一 一 用 Bob 的 主 密 钥 加 密 的 会 话 密 铀 和 Alice 身份 。 在 Kerberos 中 ， 这 两 
个 功能 以 及 KDC 本 身 都 被 一 分 为 二 〈 见 图 8-11) 。 称 为 认证 服务 器 (Authentication Serv- 
er, AS) WH (AAR 856 KDC 的 第 一 个 功能 ， 即 为 Alice 提供 一 种 证 明 号 份 的 方法 
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(不 是 回 Bob 证 明 ， 而 是 问 称 为 票据 授予 服务 器 (Ticket Granting Server, TGS) 的 第 党 二 
个 可 信服 务 器 证 明 ) 。TGS 完成 KDC 的 第 二 个 功能 ， 向 Alice 回 送 一 个 提交 给 Bob 的 票 
据 。 该 方案 的 优点 是 ， Alice 需要 与 多 个 服务 器 通信 ， 而 不 仪 是 Bob， 那 么 她 能 够 从 
TGS 为 每 一 个 服务 器 获得 一 个 票据 ， 而 不 需要 访问 AS, 


Alice AS TGS Bob 


A=Alice 
AS= 认 证 服务 器 
TGS- FERT EA 
B=Bob 
= 时 间 惟 
一 采用 X 与 AS 共享 


=X 5 YIEE ot 


一 采用 X 与 Y 共 说 的 
新 会 话 密 钥 加 密 





图 8-11 Kerberos 认证 


在 使 用 Kerberos 的 客户 端 - 服 务 器 应 用 领域 中 ， 假 设 一 定 程 度 的 时 钟 同 步 是 合理 的 。 
这 人 允许 Kerberos 使 用 时 间 惟 和 生命 期 而 不 是 Needham-Schroeder 的 当前 值 ， 因 此 可 以 避 
免 习题 4 中 讨论 的 Needham-Schroeder 的 安全 弱点 。Kerberos 支持 的 密 码 算法 包括 散 列 pay 


数 SHA-1 和 MD5， 对 称 密 钥 密码 AES, 3DES 和 DES, 


Al AB 


站 
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8.3.4 Diffie-Hellman 密 钥 协商 


Diffie Hellman 密 钥 协商 协议 用 于 建立 会 话 密 铀 ， 而 不 需要 预 分 发 密 钥 。Alice 与 
Bob 之 间 交 换 的 消息 能 够 被 窃听 ， 但 是 窃听 者 不 知道 Alice 和 Bob 最 终 计算 出 的 会 话 密 
铀 。 另 一 方面 ，Diffie-HRellman 并 不 认证 参与 者 。 因 为 在 不 能 确认 与 谁 通 信 的 情况 下 进 
行 安 全 通信 几乎 没有 意义 的 ， 因 此 通常 以 某 种 方式 对 Diffie-Hellman 进行 补充 来 提供 
认证 。 

这 个 协议 有 两 个 参数 p 和 g， 两 个 都 是 公共 参数 而 且 可 以 被 系统 中 的 所 有 用 户 使 用 。 
参数 p 必须 是 一 个 素数 。 整 数 mod p (modulo p 的 缩写 ) 后 的 结果 在 0~p 一 1 之 间 ， 因 
为 x mod p 是 zx 被 bp 整除 后 的 余数 ， 这 就 形成 了 数学 家 所 说 的 乘法 群 (group)。 参 数 g 
(一 般 称 为 生成 元 ) 必须 是 p 的 本 原 根 (primitive root); 对 1 一 pp 一 1 之 间 的 每 个 数 2， 都 
FAE k, EF n= gt mod pe HW., WR p 是 素数 5( 实 际 系 统 中 使 用 的 素数 大 得 多 )， 
那么 我 们 可 以 选择 2 作为 生成 元 和。， 因 为 : 


1 = 2° mod p 
2 = 2! mod p 
3 = 2° mod p 
4 = 2? mod p 


假设 Alice 和 Bob 想 协 商 一 个 共享 对 称 密 铀 。Alice 和 Bob 以 及 所 有 其 他 人 都 已 经 知 
ŠT p Mq 的 值 。Alice 生成 一 个 随机 私有 值 <，Bob 生成 一 个 随机 私有 值 2。a FO 都 是 
从 (1, =, p—1) 这 组 整数 中 选取 出 来 的 。Alice 和 Bob 推算 出 相应 的 公开 值 一 一 他 们 将 
要 发 送 给 对 方 的 未 加 密 的 值 ， 如 下 所 示 。Alice 的 公开 值 是 

g*? mod p 
Bob 的 公开 值 是 
7 g? mod p 
然后 交换 他 们 的 公开 值 。 最 后 ，Alice 计算 
g% mod p=(g? mod p)? mod p 
Bob 计算 | 
go mod p=(g* mod p) è mod p 
现在 Alice 和 Bob 将 gu mod p (与 gm mod p HAE) 作为 他 们 共享 的 对 称 密 铀 。 
任何 窃听 者 都 能 知道 p、g 以 及 两 个 公开 值 g* mod p 和 g? mod pe MRA AHEM 
a 或 6， 她 才能 够 很 容易 地 计算 出 密 钥 。 然 而 ， 对 于 足够 大 的 p、a 和 6， 从 这 些 信息 中 得 出 a 
或 2 在 计算 上 是 不 可 行 的 这 称 为 离散 对 数 问题 Alice Mallory Bob 
(discrete logarithm problem) 。 | | | 

另 一 方面 ，Diffie-Hellman 还 存在 缺少 认证 的 问 
题 。 一 种 可 以 利用 该 问题 的 攻击 是 中 间 人 攻击 (man- | | 
in-the-middle attack). {Rix Mallory 是 一 个 能 够 截获 消 | | 
息 的 攻击 者 。Mallory 已 经 知道 了 p 和 g， 因 为 它们 都 | 
是 公开 的 。 她 还 产生 了 两 个 随机 私有 值 c 和 ad， 分 别 用 | | 
于 与 Alice 和 Bob 通信 。 当 Alice 和 Bob 向 对 方 发 送 了 | a 
他 们 的 公开 值 时 ，Mallory 截获 这 些 信 并 发 送 她 目 己 的 图 8-12 ”中间人 攻击 
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公开 值 ， 如 图 8-12 所 示 。 结 果 是 Alice 和 Bob 在 不 知情 的 情况 下 分 别 与 Mallory 而 不 是 与 
对 方 共享 了 一 个 密 铀 。 

Diffie Hellman 的 一 种 称 为 修补 的 Diffie-Hellman (fixed Diffie-Hellman) 的 变形 提供 
了 对 一 方 或 两 方 参与 者 的 认证 。 它 依赖 于 与 公 钥 证 书 类 似 的 证 书 ， 但 它 用 于 证 明 实 体 的 
Diffie 一 Hellman 公共 参数 。 例 如 ， 这 种 证 书 可 能 会 声明 Alice 的 Diffie Hellman 参数 是 p., 
g 和 g* mod p GES, a 的 值 仍然 只 有 Alice 知道 ) 。 这 种 证 书 能 够 让 Bob 确信 执行 Diffie 
Hellman 协议 的 另 一 方 是 Alice 其 他 参与 者 不 能 计算 出 秘密 密 铀 ， 因 为 她 不 知道 a。 如 
果 两 个 参与 者 都 有 Diffie-Hellman 参数 证 书 ， 他 们 便 可 以 互相 认证 。 如 果 只 有 一 个 参与 者 
有 证 书 ， 那 么 只 有 这 个 参与 者 能 够 被 认证 。 这 在 一 些 情况 下 是 有 用 的 ， 例 如 ， 当 一 个 参与 
者 是 一 台 Web 服务 器 ， 另 一 个 参与 者 是 任意 的 客户 ， 该 客户 能 够 在 向 Web 服务 器 发 送信 
用 卡 卡号 前 认证 该 服务 器 并 建立 一 个 用 于 保密 的 会 话 密 钥 。 


8.4 系统 实例 


截至 目前 ， 我 们 已 看 到 了 构造 某 种 安全 性 所 需要 的 组 件 。 这 些 组 件 包 括 密码 算法 、 密 
钥 预 分 发 机 制 和 认证 协议 。 这 一 节 我 们 分 析 一 些 使 用 这 些 组 件 的 完整 系统 。 

可 以 根据 这 些 系统 工作 的 协议 层 粗 略 地 进行 分 类 。 工 作 在 应 用 层 的 系统 包括 良好 隐私 
(Pretty Good Privacy, PGP), 它 提 供电 子 邮 件 安全 和 安全 外 学 CSecure Shell, 
SSH) 一 一 一 个 安全 的 远程 登录 工具 。 在 传输 层 ， 有 IETF 的 传输 层 安 全 (Transport 
Layer Security, TLS) 标准 和 它 所 派生 于 的 较 早 的 安全 套 接 字 层 (Secure Socket Layer, 
SSL) i. IPsec OP 安全 ) 协议， 顾名思义， 工作 在 IP (网 络 ) 层 。802. 11i 为 无 线 网 
络 的 链 路 层 提 供 了 安全 性 。 本 节 将 阐述 每 个 方法 的 主要 特性 。 

你 可 能 会 疑惑 为 什么 必须 在 如 此 多 不 同 的 层 提供 安全 性 。 一 个 原因 是 不 同 的 威胁 需要 
不 同 的 防御 措施 ， 并 且 这 通常 会 对 应 于 保护 不 同 的 协议 层 。 例 如 ， 如 果 你 主要 考虑 在 相 邻 
建筑 中 的 一 个 人 窥探 你 的 笔记 本 电脑 与 802. 11 接 人 点 之 间 的 通信 ， 那 么 ， 你 可 能 需要 链 
路 层 安 全 。 然 而 ， 如 果 你 希望 确信 你 连接 到 了 银行 的 网 站 ， 并 且 阻 止 因特网 服务 提供 商 的 
某 个 好 奇 的 雇员 读 取 你 发 送 给 银行 的 所 有 数据 ， 那 么 提供 通信 安全 的 正确 位 置 应 该 是 你 的 
计算 机 与 银行 服务 器 之 间 整 个 通信 信道 的 某 层 ， 如 传输 层 。 情 况 常 常 如 此 ， 不 存在 适用 于 
所 有 情况 的 解决 方案 。 

下 面 所 描述 的 安全 协议 都 能 够 改变 所 使 用 的 密码 算法 。 将 安全 系统 设计 为 与 算法 独立 
的 思想 是 非常 好 的 ， 因 为 你 不 知道 什么 时 候 你 最 喜欢 的 密码 算法 会 被 证 明 对 你 的 目标 来 讲 
不 够 安全 。 如 采 你 能 在 不 需要 改变 协议 规范 或 协议 实现 的 情况 下 很 快 地 切换 到 新 算法 ， 这 
将 是 非常 好 的 一 件 事 。 注 意 ， 与 在 不 改变 算法 的 情况 下 改变 密 铜 类似， 如果 你 的 一 个 密码 
算法 被 发 现 有 缺陷 ， 而 你 的 整个 安全 体系 结构 不 需要 马上 重新 设计 ， 这 是 极 好 的 。 





8.4.1 民 好 隐私 (PGP) 


恨 好 隐私 (Pretty Good Privacy, PGP) 是 一 种 广泛 用 于 电子 邮件 安全 的 方法 。 它 提 

供 了 认证 、 机 蜜 性、 数据 完整 性 和 不 可 否认 性 。PGP 最 早 是 由 Phil Zimmerman 发 明 的 ， 

并 且 已 经 发 展 成 为 IETF 的 标准 ， 称 为 OpenPGP。 正 如 我 们 在 8. 2 节 所 看 到 的 ，PGP 适 
用 于 使 用 “信任 网 络 ” 模 型 来 分 发 密 钥 而 不 是 用 树 型 的 分 层 结 构 。 | 

”PGP 的 机 密 性 和 接收 方 认证 依赖 于 电子 邮件 的 接收 方 拥有 一 个 发 送 者 知道 的 公 钥 。 为 
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了 提供 发 送 方 认 证 和 不 可 否认 性 ， 发 送 方 必须 拥有 一 个 接收 者 知道 的 公 钥 。 这 些 公 钥 是 通 
过 8. 2.1 节 中 描述 的 证 书 和 信任 网 络 PKI 进行 预 分 发 的 。 这 些 证 书 可 以 进一步 指明 支持 哪 
些 密码 算法 或 者 密 钥 拥有 者 推荐 哪些 密码 算法 。 

思考 下 面 的 例子 ，PGP 被 用 于 提供 发 送 方 认证 和 机 密 性 。 假 设 Alice 有 一 条 消息 通过 
电子 邮件 传递 给 Bob, Alice 的 PGP 应 用 程序 执行 图 8-13 所 示 的 步 又。 首先 ，Alice 对 消 
息 进 行 数 字 签 名 ，MD5、SHA-1 和 SHA-2 协议 族 都 是 可 以 用 于 数字 签名 的 散 列 函数 。 然 
后 ， 她 的 PGP 应 用 程序 为 仅 有 的 这 条 消息 产生 一 个 新 的 会 话 密 钥 ， 所 支持 的 对 称 密 钥 密 
码 包括 AES 和 3DES。 数 字 签 名 后 的 消息 通过 该 会 话 密 钥 被 加 密 ， 会 话 密 钥 本 身 被 Bob 的 
公 钥 加 密 后 追加 到 消息 后 。Alice 的 PGP 应 用 程序 会 提示 她 以 前 赋 给 Bob 的 公 钥 的 信任 程 
度 ， 这 是 根据 她 所 拥有 的 Bob 的 证 书 的 数量 以 及 对 每 个 证 书 的 签名 者 的 信任 度 来 确定 的 。 
最 后 ， 对 消息 进行 base64 编码 Chn 9.1.1 节 所 述 ) ， 转 换 成 一 种 ASCH 兼容 的 表示 形式 。 
这 不 是 为 了 安全 ， 而 是 因为 电子 邮件 消息 必须 以 ASCII 形式 发 送 。 通 过 电子 邮件 接收 到 
PGP 消息 后 ，Bob 的 PGP 应 用 程序 按 逆 序 执行 上 述 过 程 来 得 到 原始 的 明文 消息 ， 并 确认 
Alice 的 数字 签名 同时 提示 Bob 他 对 Alice 的 公 角 的 信任 程度 。 








Hi... 一 消息 明文 
Hi... ”1 ) 使 用 Aliee 的 私 钥 进行 
数字 签名 
A 





2) 使 用 新 产生 的 一 次 会 话 
密 钥 加 密 


3) 使 用 Bob 的 公 铀 加 密会 
话 密 铀 并 附加 地 一 起 


4) 使 用 base 64 编 码 获 取 
兼容 的 表示 





base 64 
图 8-13 PGP 准备 由 Alice 通过 电子 邮件 发 送 到 Bob 的 消息 的 步骤 


电子 邮件 有 一 个 不 同 寻 常 的 特性 ， 它 允许 PGP 在 这 个 单条 消息 数据 传输 协议 中 嵌入 
适当 的 认证 协议 ， 从 而 避免 提前 进行 任何 消息 交换 (避免 前 面 在 8. 3 节 中 描述 的 一 些 复杂 
PR. Alice 的 数字 签名 是 以 认证 她 。 虽 然 无 法 证 明 消息 是 及 时 的 ,但 传统 的 电子 邮件 也 


不 是 及 时 的 。 另 外 ， 也 无 法 证 明 消 息 是 原始 的 ， 但 Bob 作为 一 个 电子 邮件 用 户 ， 通 常 能 够 
从 电子 邮件 副本 中 恢复 信息 〈 这 在 正常 操作 情况 下 也 不 是 不 可 能 的 ) Alice 可 以 确定 只 有 
Bob 能 够 读 取 消息 ， 因 为 会 话 密 钥 是 用 他 的 公 钥 加 密 的 。 虽然 该 协议 没有 向 Alice 证 明 
Bob 确实 存在 并 收 到 了 电子 邮件 ， 但 从 Bob 回 送 给 Alice 的 经 过 认证 的 电子 邮件 能 够 提供 
WEAR 。 

上 述 讨论 给 出 了 一 个 很 好 的 示例 ， 说 明了 为 什么 应 用 层 安 全 机 制 很 有 用 。 只 有 全 面 了 
解 应 用 的 工作 原理 ， 你 才能 做 出 正确 的 选择 ， 即 防御 哪些 攻击 (如 伪造 的 电子 邮件 ) 以 及 
忽略 哪些 攻击 (如 被 延迟 的 或 被 重 放 的 电子 邮件 )。 | | 


8.4.2 ”安全 外 过 (SSH)e 


安全 外 壳 (Secure Shell, SSH) 协议 用 于 提供 一 种 远程 登录 服务 ， 其 目的 是 取代 早期 
在 因特网 上 使 用 的 安全 性 较 差 的 Telnet 和 rlogin FF. (SSH 还 能 用 于 远程 执行 命令 和 传 
输 文件 ， 分 别 与 Unix 的 rsh 命令 和 tcp 命令 类 似 ， 但 我 们 重点 要 关注 的 是 SSH 怎样 文 持 
远程 登录 。) SSH 最 常用 的 功能 是 提供 强 客 户 端 /服务 器 认证 /消息 完整 性 一 一 其 中 SSH 的 
客户 端 运行 在 用 户 的 台式 机 上 ， 而 SSH 的 服务 器 端 运 行 在 用 户 想 要 登录 的 某 台 远程 主机 
上 一 一 但 SSH 也 支持 机 密 性 。Telnet 和 rlogin 则 不 提供 任何 这 样 的 功能 。 注 意 ，”SSH” 
既 指 SSH 协议 ， 也 指使 用 SSH 的 应 用 ， 你 需要 从 上 下 文中 区 分 出 指 的 是 什么 。 

为 了 更 好 地 理解 SSH 对 现今 因特网 的 重要 性 ， 考 虑 几 个 应 用 SSH 的 场景 。 例 如 ， 远 
程 通勤 人 员 一 般 付 款 给 那些 提供 高 速 电缆 调制 解 调 器 或 DSL 服务 的 ISP， 他 们 通过 这 些 
ISP 或 其 他 ISP 组 成 的 链 来 连接 到 雇主 运行 的 计算 机 。 这 就 意味 着 在 登录 时 ， 他 们 的 密码 
以 及 他 们 收发 的 数据 很 可 能 穿越 任意 多 个 不 可 信 网 络 。SSH 提供 一 种 方法 来 加 蜜 在 这 些 
连接 上 发 送 的 数据 以 增加 他 们 登录 时 使 用 的 认证 机 制 的 强度 。SSH 的 一 种 类 似 的 用 法 是 
运程 登录 到 路 由 器 ， 可 能 是 更 改 配置 或 读 取 日 志文 件 。 显 然 ， 网 络 管理 员 和 希望 确保 他 能 
安全 登录 到 路 由 器 ， 并 且 示 授权 实体 既 无 法 登录 ， 也 不 能 截取 发 送 给 路 由 器 的 命令 或 返回 
给 管理 员 的 输出 信息 。 

SSH 的 最 新 版 本 (版 本 2) 由 三 个 协议 组 成 : 

。 SSH-TRANS: 传输 层 协议 。 

© SSH-AUTH: 认证 协议 。 

o SSH-CONN: 连接 协议 。 

我 们 关注 前 两 个 协议 ， 它 们 与 远程 登录 有 关 。 我 们 在 本 节 的 最 后 简要 讨论 SSH 一 
CONN 的 用 途 。 | | ’ 

SSH-TRANS 在 客户 端 和 服务 器 之 间 提 供 了 一 条 加 密 信道 。 这 条 信道 运行 在 一 个 
TCP 连接 上 。 当 一 个 用 户 使 用 SSH 登录 一 台 远 程 主机 时 ， 第 一 步 就 是 要 在 两 台 主 机 间 建 
立 一 条 SSH-TRANS 信道 。 两 台 计算 机 建立 这 条 安全 信道 的 方法 是 先 让 客户 使 用 RSA 认 
证 服务 如 。 认 证 完成 后 ， 客 户 和 服务 器 就 建立 一 个 会 话 密 钥 ， 并 用 这 个 密 钥 加 密 信 道上 发 
送 的 所 有 数据 。 这 种 高 层次 描述 忽略 了 几 个 细节 ， 其 中 包括 这 样 一 个 事实 ，SSH-TRANS 
协议 包含 双方 对 将 要 使 用 的 加 密 算 法 的 协商 。 例 如 ， 一 般 会 选择 AES。SSH-TRANS 还 
会 对 信道 上 交换 的 所 有 数据 进行 消息 完整 性 检查 。 


O 参见 “实验 十 三 ”。 


我 们 不 能 忽略 的 一 个 问题 是 客户 端 如 何 获得 认证 服务 器 所 需 的 服务 器 的 公 钥 。 听 起 
来 可 能 有 些 奇怪 ， 服务 器 在 连接 时 告诉 客户 端 它 的 公 钥 。 当 客户 首次 连接 到 一 台 特 定 主 
PLET, SSH 应 用 程序 告诫 用 户 他 从 未 同 这 台 主 机 对 过 话 并 询问 用 户 是 否 要 继续 。 尽 管 有 
风险 ， 用 户 还 是 经 常 回答 “是 ”， 因 为 SSH 应 用 不 能 有 效 认 证 服务 器 。 于 是 SSH 应 用 就 
记 住 服务 器 的 公 钥 ， 并 在 下 一 次 用 户 连 接 到 同一 机 器 时 把 保存 的 密 钥 与 服务 器 回应 的 密 
钥 进 行 比较 。 如 果 它 们 是 相同 的 ， 服 务 器 就 通过 SSH 的 认证 。 但 如 果 不 同 ，SSH 会 再 
次 警告 用 户 有 和 错误， 然后 给 用 户 中 止 连接 的 机 会 。 作 为 蔡 代 方法 ， 并 慎 的 用 户 可 以 通过 
带 外 机 制 来 获得 服务 器 的 公 钥 ， 并 保存 到 客户 端 ， 这 样 就 不 用 骨 “首次 ”连接 的 危险 。 

一 且 SSH-TRANS 信道 存在 ， 下 一 步 就 是 用 户 实际 登录 到 目标 主机 上 ， 更 确切 地 说 ， 
就 是 让 服务 器 对 用 户 身份 进行 认证 。SSH 人 允许 通过 三 种 不 同 机 制 来 完成 这 件 事 。 第 一 种 
机 制 ， 因 为 两 台 计 算 机 是 在 一 条 安全 的 信道 上 通信 ， 所 以 用 户 只 要 把 口令 发 送 给 服务 器 即 
可 。 对 于 Telnet 来 说 ， 这 样 做 是 不 安全 的 ， 因 为 口令 是 用 明文 发 送 的 ， 但 在 使 用 SSH 的 
情况 下 , 口令 在 SSH-TRANS 信道 中 是 加 密 的 。 第 二 种 机 制 使 用 公 钥 加 密 ， 这 种 机 制 要 
求 用 户 将 其 公 钥 事先 放 在 服务 器 上 。 第 三 种 机 制 称 为 基于 主机 的 认证 Chost-based authen- 
tication) ， 基 本 思想 是 任何 声称 来 自 一 组 可 信和 主机 的 用 户 将 自动 被 认为 是 该 服务 器 上 的 同 
样 的 用 户 。 基 于 主机 的 认证 要 求 客户 主机 (host) 在 首次 连接 时 向 服务 器 认证 自己 。 标 准 
的 SSH-TRANS 默认 仅 认 证 服务 器 。 | 

通过 这 段 讨 论 ， 你 主要 应 该 明白 SH 是 我 们 在 本 章 所 见 的 协议 和 算法 的 一 个 比较 
直接 的 应 用 。 然 而 ， 用 户 需 要 建立 和 管理 多 个 密 铀 ， 这 有 时 让 SSH BARRE, WA 
实际 使 用 的 接口 依赖 于 操作 系统 。 例 如 ， 在 大 多 数 Unix 机 上 运行 的 OpenSSH 包 都 支持 
ssh-keygen 命令 ， 用 于 创建 公 钥 / 私 钥 对 。 然 后 这 些 密 钥 被 存储 在 用 户主 目录 下 的 .ssh 
目录 的 不 同文 件 中 。 例 如 ， 文 件 /. ssh/known_hosts 记录 用 户 已 登录 的 所 有 主机 的 密 钥 ， 
文件 /. ssh/ authorized _ keys 包含 用 户 登 录 本 机 时 认证 他 所 需 的 公 钥 〈 即 它们 在 服务 端 
被 使 用 ) ， 文 件 /. ssh/identity 包含 认证 远程 机 器 上 的 用 户 时 需要 的 私 钥 〈 即 它们 在 客户 
端 被 使 用 ) 。 | 

最 后 ，SSH 已 被 证 明 是 一 个 保护 远程 登录 安全 的 有 用 系统 ， 它 已 经 被 扩展 以 支持 其 
他 应 用 ， 如 发 送 和 接收 电子 邮件 。 其 思想 是 在 一 条 安全 的 “SSH 隧道 ”上 运行 这 些 应 用 
程序 。 这 种 功能 称 为 端口 转发 (port forwarding)， 它 使 用 的 是 SSH-CONN 协议 。 图 8-14 
展示 了 这 种 思想 ,我 们 看 到 主机 A 上 的 客户 程序 通过 使 用 一 条 SSH 连接 来 转发 通信 量 ， 
间接 地 与 主机 B 上 的 服务 程序 通信 。 这 种 机 制 称 为 端口 转发 是 因为 当 消息 到 达 服 务 器 上 的 
知名 SSH 端口 时 ，SSH 首先 把 内 容 解 密 ， 然 后 把 数据 转发 到 服务 器 实际 监听 的 端口 上 。 
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图 8-14 用 SSH 端口 转发 保护 其 他 基于 TCP 的 应 用 的 安全 
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这 仅 是 另外 一 种 隧道 ， 即 3. 2. 9 节 中 介绍 的 类 型 ， 在 本 例 中 提供 了 机 密 性 和 认证 ， 以 这 种 
| 方法 使 用 隧道 可 以 提供 一 种 虚拟 专用 网 络 (Virtual Private Network, VPN). 


8.4.3 传输 层 安 全 (TLS, SSL, HTTPS) 


为 了 了 解 IETF 正在 开发 的 传输 层 安 全 (Transport Layer Security, TLS) 标准 以 及 
TLS 的 基础 安全 套 接 字 层 (Secure Socket Layer, SSL) 的 设计 目标 和 需求 ， 考 虑 它 要 解 
决 的 主要 问题 之 一 是 有 帮助 的 。 当 WWW 流行 起 来 而 且 商 业 企 业 开 始 对 它 感 兴趣 时 ， 很 
显然 ， 对 于 Web 上 的 交易 ， 某 些 安 全 等 级 将 是 必 不 可 少 的 。 这 种 情况 的 典型 例子 是 通过 
信用 卡 购 物 。 当 你 把 信用 卡 信息 发 送 到 Web 上 的 一 台 计 算 机 时 需要 考虑 几 个 问题 。 首 先 ， 
你 可 能 会 担心 信息 在 传输 中 被 截获 ， 并 被 他 人 用 于 非法 购物 。 你 也 许 还 担心 交易 的 有 关 细 
节 被 修改 ， 如 改变 购买 数量 。 而 且 你 一 定 想 知 道 信 用 卡 信息 到 达 的 计算 机 是 属于 商家 的 计 
算 机 而 不 是 其 他 什么 人 的 计算 机 。 这 样 ， 我 们 立即 看 到 Web 交易 对 机 密 性 、 完 整 性 和 认 
证 的 需求 。 对 这 个 问题 的 第 一 个 广泛 使 用 的 解决 方法 是 SSL， 最 初 是 由 Netscape 开发 的 ， 
后 来 成 为 IETF 的 TLS 标准 的 基础 。 

SSL 和 TLS 的 设计 者 认识 到 这 些 问题 并 非 Web 交易 〈 即 那些 使 用 HTTP 的 应 用 ) 所 
特有 的 ， 因 而 要 在 应 用 协议 〈 例 如 HTTP) 和 传输 协议 〈 例 如 TCP) 之 间 建 立 一 个 通用 
的 协议 。 将 这 个 协议 称 为 “传输 层 安 全 ”的 原因 在 于 ， 从 me 








应 用 的 观点 看 ， 这 个 协议 层 看 起 来 就 像 一 个 普通 的 传输 协 TR _ 
议 ， 只 是 它 是 安全 的 。 也 就 是 说 ， 发 送 方 可 以 打开 连接 并 《一 一 一 一 
发 送 要 传输 的 字 节 ， 而 安全 传输 层 就 会 把 它们 传送 给 接收 下 | 
方 ， 并 保证 必需 的 机 密 性 、 完 整 性 和 认证 。 在 TCP 上 通 | i ee | 
过 运行 安全 传输 层 ，TCP 的 所 有 -一般 特性 ORE WE asis mes TC ESN 
控制 、 拥 塞 控制 等 ， 也 会 被 提供 给 应 用 程序 。 图 8-15 描述 A 

了 协议 层 的 布局 。 


当 以 这 种 方式 使 用 HTTP 时 ， 它 被 称 为 是 HTTPS (安全 的 HTTP)。 事 实 上 ，HT- 
TP 本 身 无 变化 。 它 简单 地 把 数据 传递 到 SSL/TLS 层 或 从 SSL/TLS 层 接 收 数据 ， 而 不 是 
在 TCP 层 。 为 方便 起 见 ， 为 HTTPS 分 配 了 默认 的 TCP 端口 443。 就 是 说 ， 如 果 你 试图 
连接 到 一 合 服务 器 的 TCP 端口 443， 可 能 会 发 现 你 正 与 SSL/TLS 协议 会 话 ， 只 要 能 顺利 
进行 认证 和 解密 ， 它 就 会 将 数据 传 给 HTTP。 虽 然 存 在 独立 的 SSL/TLS 实现 ， 但 更 常见 
的 实现 方法 是 与 需要 它 的 应 用 绑 定 ， 主 要 是 Web 浏览 器 。 

在 下 面 的 关于 传输 层 安 全 的 讨论 中 ， 我 们 关注 TLS. BA SSL 和 TLS 非常 不 幸 地 不 
能 互 操 作 ， 但 只 在 很 小 的 方面 有 差别 ， 因 此 几乎 对 TLS 的 所 有 描述 都 适用 于 SSL, 

1. 握手 协议 

一 对 TLS 参与 者 在 运行 过 程 中 协商 要 使 用 的 密码 算法 。 参 与 者 对 如 下 选择 进行 协商 ; 

。 数据 完整 性 散 列 (MD5 或 SHA-1 等 )， 用 于 实现 HMAC, 

。 用 于 保密 的 对 称 密 钥 密码 (可 能 的 选择 有 DES, 3DES 和 AES。) 。 

。 会话 密 钥 建立 方法 (可 能 的 选择 有 Diffie Hellman、 修 正 的 Diffie Hellman 和 使 用 

RSA 或 DSS 的 公 钥 认证 协议 。) 
有 趣 的 是 ， 握 手 协议 还 可 以 协商 使 用 压缩 算法 ,不 是 因为 它 能 提供 安全 性 方面 的 好 


Pl 全 Sor 


处 ， 而 是 因为 在 你 进行 其 他 协商 时 很 容易 实现 压缩 算法 协商 ， 并 且 你 已 经 决定 对 数据 进行 
一 些 开销 较 大 的 以 字 市 为 单位 的 操作 。 

在 TLS 中 ,保密 密码 使 用 两 个 密 钥 ,每 个 方向 一 个 ， 类 似 地 也 需要 两 个 初始 向 量 。 
同样 ，HMAC 为 两 个 参与 者 使 用 不 同 的 密 钥 。 这 样 ， 无 论 选 择 什 么 密码 和 散 列 函数 ， 一 
个 TLS 会 话 都 需要 六 个 密 铜 。TLS 从 一 个 共享 的 主 密 钥 (master key) 中 推导 出 所 有 密 
钥 。 主 密 钥 是 一 个 384 位 (48 字 节 ) 的 值 ， 则 是 部 分 地 由 TLS 会 话 密 钥 建立 协议 产生 的 
“会话 ” 密 钥 中 推导 出 来 的 。 

TLS 中 协商 选项 和 建立 共享 主 秘密 的 部 分 称 为 握手 协议 (handshake protocol), CX 
际 的 数据 传输 是 由 TLS 的 记录 协议 Crecord protocol) 完成 的 ) 。 握 手 协 议 本 质 上 是 一 个 
会 话 密 钥 建立 协议 ， 它 建立 一 个 主 秘密 而 不 是 会 话 密 铀 。TLS 支持 对 会 话 密 钥 建立 方法 的 
选择 。 这 些 都 需要 相应 的 不 同 协 议 。 另 外 ， 握 手 协 议 支 持 选择 两 个 参与 者 的 相互 认证 、 仅 
对 单个 参与 者 的 认证 〈 这 是 最 常见 的 情况 ， 例 如 ， 认 证 一 个 Web 站 点 而 不 是 用 户 ) 或 者 
无 认证 匿名 Diffie Hellman) 。 这 样 ， 握 手 协议 就 把 几 个 会 话 密 钥 建立 协议 交织 在 一 个 协 
WXPF. 

图 8-16 显示 了 握手 协议 的 高 层 描述 。 客 户 首先 发 送 一 个 它 所 支持 的 密码 算法 组 合 的 
列表 ， 以 偏好 递减 的 顺序 排列 。 服 务 需 返回 它 从 客户 列表 中 选择 的 一 个 密码 算法 组 合 。 这 


些 消 息 还 包含 一 个 客户 当前 值 〈clientrnonce) 和 一 个 客户 端 服务 右 


服务 器 当前 值 (server-nonce)， 当 前 值 将 被 用 于 以 后 EER pen 
产生 主 秘密 。 | 

到 些 ， 协 商 阶段 结束 。 现 在 服务 器 根据 所 协商 的 
会 话 密 钥 建 立 协 议 发 送 其 他 消息 。 这 可 能 包括 发 送 一 
个 公 钥 证 书 或 者 一 组 Diffie 一 Hellman 参数 。 如 果 服 
务 器 要 求 认证 客户 ， 它 就 会 发 送 一 个 单独 的 消息 来 说 
明 这 一 上 点。 然后， 客户 用 所 协商 的 密 钥 交换 协议 的 相 
应 部 分 作为 啊 应 。 

现在 ， 客 户 和 服务 器 都 拥有 了 产生 主 秘密 所 必需 
的 信息 。 它 们 所 交换 的 会 话 密 钥 事实 上 并 不 是 一 个 密 
SH, mÆ TLS 中 所 谓 的 预 主 秘密 (pre-master se- 
cret) 。 主 秘密 是 由 预 主 秘密 、 客 户 当 前 仁和 服务 天 
当前 值 计算 得 出 的 (使 用 一 个 公开 的 算法 )。 然 后 ， 
客户 用 从 主 秘密 推导 出 的 密 钥 发 送 一 条 消息 ， 它 包含 
了 前 面 所 有 握手 消息 的 散 列 值 ， 服 务 右 会 以 一 条 类 似 
的 消息 作为 啊 应 。 这 使 得 它们 能 够 检测 到 所 发 送 的 消 
息 与 接收 到 的 握手 消息 之 间 的 任何 区 别 ， 例 如 ， 一 个 
中 间 人 攻击 通过 修改 初始 的 未 加 密 客 户 消息 来 减弱 对 
密码 算法 的 选择 。 

2. 记录 协议 : 

在 用 握手 协议 建立 的 会 话 中 ，TLS eR | | 
为 下 层 的 传输 服务 增加 了 机 密 性 和 完整 性 。 从 应 用 层 ”图 8-16 用 于 建立 TLS 会 话 的 握手 协议 
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向 下 传递 的 消息 : 

1) 为 执行 后 续 步 骤 将 消息 分 段 或 合并 成 适当 大 小 的 块 。 

2) 压缩 (可 选 )。 

3) 使 用 HMAC 保护 完整 性 。 

4) 使 用 对 称 密码 加 密 。 

5) 被 传送 到 传输 层 (一 般 是 TCP)， 进 行 传输 。 

记录 协议 使 用 一 个 HMAC 作为 认证 码 。HMAC 使 用 参与 者 协商 的 任何 散 列 函 数 
(MD5 或 SHA-1 等 ) 。 在 计算 HMAC 时 ， 客 户 和 服务 器 使 用 不 同 的 密 钥 ， 这 使 得 破解 更 
加 困难 。 另 外 ， 每 条 记录 协议 消息 被 分 配 一 个 序列 号 ， 计 算 HMAC 时 将 该 序列 号 包括 在 
内 ， 但 该 序列 号 并 不 显 式 地 出 现在 消息 中 。 这 个 隐 含 的 序列 号 能 够 防止 消息 重 放 或 重 排 
序 。 这 一 点 是 需要 的 ， 因 为 虽然 TCP 保证 了 正常 情况 下 没有 重复 消息 ， 但 没有 考虑 能 够 
截获 消息 并 发 送 伪造 消息 的 攻击 者 。 另 一 方面 ，TCP 的 确保 传输 使 得 TLS 可 以 依赖 拥有 
下 一 个 隐 含 序列 号 的 合法 TLS 消息 实现 按 序 传输 。 

TLS 协议 的 另 一 个 对 Web 交易 相当 有 用 的 有 趣 特性 是 恢复 会 话 的 功能 。 为 了 了 解 这 
种 功能 的 动机 ， 理 解 HTTP 如 何 使 用 TCP 连接 是 有 帮助 的 《HTTP 的 细节 在 9.1.2 市 给 
出 )。 每 个 HTTP 操作 ， 如 从 服务 器 获取 文本 网 页 或 图 像 ， 都 需要 打开 一 个 新 的 TCP 连 
接 。 获 取 有 许多 内 入 图 形 对 象 的 单个 页 面 会 占用 许多 TCP 连接 。 回 想 一 下 5.2 节 ， 数 据 
开始 传输 之 前 打开 TCP 连接 需要 三 次 握手 。 一 旦 TCP 连接 准备 接收 数据 ， 客 户 就 需要 启 
z) TLS 握手 协议 ， 应 用 程序 数据 真正 发 送 前 会 话 至 少 还 要 两 个 RTT (并 消耗 一 些 处 理 资 
源 和 网 络 带宽 ) 。TLS 的 恢复 功能 可 缓解 这 个 问题 。 | 

会 话 恢复 是 对 握手 的 一 种 优化 ， 可 以 用 在 客户 和 服务 器 已 经 建立 了 一 些 共 享 状 态 的 情 
况 下 。 客 户 简单 地 在 初始 握手 消息 中 包含 以 前 所 建立 会 话 的 会 话 ID。 如 果 服 务 器 发 现 它 
仍然 有 那个 会 话 的 状态 ， 并 且 在 会 话 建立 时 协商 使 用 恢复 选项 ， 那 么 服务 器 就 可 以 用 一 个 
成 功 的 指示 响应 客户 ， 然 后 使 用 先前 协商 的 算法 和 参数 开始 数据 传输 。 如 果 会 话 ID 不 与 
服务 器 缓存 的 任何 会 话 状态 相 匹 配 ， 或 者 如 果 不 允 许 恢 复 会 话 ， 那 么 服务 器 就 会 返回 到 标 
准 的 握手 过 程 。 





8.4.4 ”IP 安全 (IPsec) 


也 许 将 安全 性 集成 到 因特网 中 的 最 具 雄 心 的 工作 发 生 在 IP 层 。 这 种 体系 结构 称 为 IP- 
sec, Xf IPsec 的 支持 在 IPv4 中 是 可 选 的 ， 但 在 IPv6 中 必须 支持 。 

IPsec 的 确 是 能 够 提供 本 草 讨 论 的 所 有 安全 服务 的 框架 与 单个 协议 或 系统 相反 )。 
IPsec 提供 三 个 自由 度 等 级 。 第 一 ， 它 是 高 度 模块 化 的 ， 允 许 用 户 (或 更 可 能 是 系统 管理 
员 ) 从 各 种 加 密 算法 和 专用 安全 协议 中 进行 选择 。 第 二 ，IPsec 允许 用 户 从 一 个 大 的 安全 
服务 荣 单 中 进行 选择 ， 包 括 访问 控制 、 完 整 性 、 认 证 、 原 始 性 和 机 密 性 。 第 三 ，IPsec 可 
以 用 来 保 护 “ 宪 小 ”的 流 《〈 比 如 在 一 对 主机 间 发 送 的 属于 特殊 TCP 连接 的 分 组 ) 或 “ 宽 
大 ”的 流 《〈 比 如 一 对 路 由 喜之 间 流 过 的 所 有 分 组 ) 。 

从 高 层 看 ，IPsec 包括 两 部 分 。 第 一 部 分 是 实现 可 用 的 安全 服务 的 一 对 协议 。 它 们 是 
提供 访问 控制 、 无 连接 消息 完整 性 、 认 证 和 反 重 发 保护 的 认证 首部 (Authentication 
Header, AH) 以 及 同样 支持 这 些 服 务 再 加 上 机 密 性 的 封装 安全 有 效 载荷 (Encapsulating 
Security Payload, ESP). AA AH 很 少 使 用 ， 因 此 我 们 在 此 重点 讨论 ESP。 第 二 部 分 是 
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对 密 钥 管理 的 文 持 ， 它 置身 于 所 谓 的 因特网 安全 关联 和 密 钥 管理 协议 nternet Security 
Association and Key Management Protocol, ISAKMP) 的 保护 之 下 。 

把 这 两 部 分 绑 定 在 一 起 的 抽象 就 是 安全 关联 (Security Association, SA), SA 是 具有 
一 个 或 多 个 可 用 安全 特性 的 单 工 〈 单 向 ) 连接 ， 保 护 一 对 主机 间 的 双向 通信 ， 例 如 对 应 一 
个 TCP 连接 ， 需 要 两 个 安全 关联 ， 每 个 方向 有 一 个 安全 关联 。 虽然 IP 是 一 个 无 连接 协 
X, 但 其 安全 性 依赖 于 连接 状态 信息 ， 如 密 钥 和 序列 号 。 在 创建 SA 时 ， 由 接收 方 的 计算 
机 为 其 指定 一 个 安全 参数 索引 (Security Parameters Index，SPI)。 这 个 SPI 和 目标 IP 地 
址 的 组 合 唯 一 标识 一 个 SA, ESP 首部 包含 SPI， 以 便 使 接收 方 主机 能 确定 输入 分 组 属于 
哪个 SA， 进 而 确定 对 分 组 用 什么 算法 和 密 铀 。 

SA 的 建立 、 协 商 、 修 改 和 删除 是 通过 ISAKMP 实现 的 。 它 定义 了 交换 密 钥 生成 和 认 
证 数据 的 分 组 格式 。 这 些 格式 并 非 很 用， 因为 它们 只 提供 一 个 框架 ， 确 切 的 密 铀 和 认证 
数据 的 格式 取决 于 所 使 用 的 密 钥 生成 技术 、 密 码 算 法 和 认证 机 制 。 此 外 ， 尽 管 ISAKMP 
建议 将 因特网 密 钥 交换 (nternet Key Exchange, IKE) 作为 一 个 可 能 的 协议 ， 并 且 IKE 
也 是 实际 中 使 用 的 协议 ， 但 它 并 不 指定 特定 的 密 钥 交换 协议 。 

ESP 是 用 于 在 已 建立 的 SA 上 安全 地 传输 数据 的 协议 。 在 IPv4 中 ，ESP 首部 跟 在 IP 
首部 之 后 ; 在 IPv6 中 ， 它 是 一 个 扩展 首部 。 其 格式 使 用 一 个 首部 和 一 个 尾部 ， 如 图 8-17 
所 示 。SPI 字段 帮助 接收 方 主机 识别 分 组 所 属 的 安全 关联 。SeqNum (序号 ) 字段 防止 重 
发 攻击 。 分 组 的 PayloadData AARMA) 字段 包含 由 NextHdr (下 一 个 首部 ) 字段 
描述 的 数据 。 如 果 选 择 保密 ， 那 么 就 用 与 SA 关联 的 任何 算法 加 密 数 据 。PadLength CS 
EKE) 字段 记录 给 数据 加 入 多 少 填充 。 填 充 有 时 是 必要 的 ， 例 如 ， 因 为 加 密 算 法 要 求 明 
文 是 某 个 字 节 数 的 倍数 ， 或 确保 结果 密 文 以 4 字 节 边界 结束 。 最 后 ，AuthenticationData 
(认证 数据 ) 包含 认证 码 。 | 
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图 8-17 IPsec 的 ESP 格式 


IPsec 支持 隧道 模式 (tunnel mode)， 也 文 持 一 种 更 直接 的 传输 模式 (transport 
mode) 。 每 个 SA 工作 在 其 中 的 一 种 模式 下 。 在 传输 模式 SA P, ESP HY aX far x te OX fay A 
地 作为 像 UDP 或 TCP 一 样 的 高 层 数据 。 在 这 种 模式 下 ，IPsec 作为 一 个 中 间 协 议 展 ， 很 
像 SSL/TLS 在 TCP 与 高 层 协议 之 间 的 作用 。 当 接收 到 ESP AJ. EY Bt ta RIK Al 
高 层 协议 。 

然而 ， 在 隧道 模式 SAP, ESP 的 载 谷 数据 本 刁 台 是 一 个 IP 分组， 如 图 8-18 Bra. 
内 部 IP 分 组 的 源 地 址 和 目的 地 址 可 能 与 外 层 的 IP 分 组 不 同 。 当 接收 到 ESP 消息 时 ， 它 的 
载荷 被 当 作 一 个 正常 的 卫 分 组 转发 。 使 用 ESP 的 最 第 见 的 方式 是 在 两 台 路 由 右 ( 上 典型 情 
况 是 防火 墙 ， 之 间 建 立 一 个 “IPsec 隧道 ”。 例 如 ， 一 个 公司 希望 使 用 因特网 连接 两 个 站 
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点 ， 在 一 个 站 点 的 路 由 器 与 男 一 个 站 点 的 路 由 器 之 间 打 开 一 对 隧道 模式 SA， 就 像 3. 2.9 
节 描 述 的 那样 。 从 一 个 站 点 发 出 的 IP 分 组 在 发 送 路 由 器 上 成 为 发 送 给 夯 一 人 台 路 由 占 的 一 
条 ESP 消息 的 载荷 。 接 收 路 由 器 会 拆 开 IP 分 组 的 载荷 ， 并 转发 到 真正 的 目的 地 。 


_ESP 有 效 载荷 、 


~ 


IP 首 部 , 目的 地 二 a.b.c.d | ESP 首 部 
图 8-18 ”包含 一 个 奶 套 的 用 隧道 模式 ESP 加 密 的 全 分 组 的 IP 分 组 。 
注意 ， 内 层 分 组 和 外 层 分 组 具有 不 同 的 地 址 





这 些 隧道 也 可 以 配置 为 使 用 ESP 来 提供 机 密 性 和 认证 ， 从 而 防止 对 跨越 该 虚拟 链接 
的 数据 的 非 授权 访问 ， 并 确保 隧道 的 另 一 端 不 会 接收 到 伪造 的 数据 。 另 外 ， 隧 道 能 够 提供 
流量 机 密 性 ， 因 为 多 个 数据 流通 过 单个 隧道 会 使 得 两 个 特定 端点 间 传 输 的 数据 量 信息 变 得 
模糊 。 这 种 隧道 组 成 的 网 络 能 够 用 于 实现 一 个 完整 的 虚拟 专用 网 络 (VPN， 见 3.2.9 49). 
Æ VPN 上 通信 的 主机 甚至 不 需要 知道 VPN 的 存在 。 





由 于 介质 方面 缺少 任何 物理 安全 措施 ， 所 以 无 线 链 路 〈 见 2.7 市 ) 是 非常 容易 受到 安 
全 威胁 的 。 虽 然 802. 11 的 便捷 使 得 无 线 技术 得 到 广泛 文 持 ， 但 缺乏 安全 性 是 一 个 经 党 遇 
到 的 问题 。 因 为 无 线 电波 能 够 穿越 大 部 分 墙壁 ， 如 果 无 线 接 人 点 缺少 安全 措施 ， 那 么 攻击 
者 就 能 在 办 公 楼 外 访问 公司 网 络 。 与 此 类 似 ， 办 公 楼 内 融 有 无 线 网 络 适 配 融 的 计算 机 也 可 
以 连接 到 办 公 楼 外 ， 并 有 可 能 遭 到 攻击 ， 而 如 果 该 计算 机 有 一 个 以 太 网 连接 ， 那么 公司 网 
络 中 的 其 他 计算 机 也 可 能 会 遭 到 攻击 。 

Alt, 保护 无 线 链 路 的 安全 需要 做 相当 多 的 工作 。 令 人 惊讶 的 是 ， 用 于 802.11 pE 
期 安全 技术 之 一 ， 有 线 等 效 隐 私 (Wired Equivalent Privacy, WEP) 被 发 现 有 严重 缺陷 ， 
并 且 很 容易 被 攻破 。 

IEEE 802. 11i 标准 在 链 路 层 为 802.11 CWi-Fi) 提供 了 认证 、 消 息 完 整 性 和 机 密 性 。 
Wi-Fi Ra HEA 2 (Wi-Fi Protected Access 2, WPA2) 经 党 作为 802.11i 的 同义词 ， 但 
是 ， 从 技术 上 来 讲 ，WPA2 是 认证 符合 802.111 产品 的 Wi-Fi 联盟 商标 。 

AY MSHA, 802.111 包括 了 第 一 代 安 全 算法 的 定义 一 一 包括 WEP 一 一 现在 已 经 知 
道 这 些 算法 有 严重 的 安全 缺陷 。 我 们 在 这 里 关注 802. 11i 的 新 的 更 健壮 的 算法 。 

802. 11i 认证 文 持 两 种 模式 。 对 每 一 种 模式 ， 认 证 成 功 的 最 终结 果 是 一 个 共享 的 主 密 
HIT. MAREA (personal mode) 也 称 为 预 共享 密 钥 模式 (preshared key mode, PSK), 
提供 了 较 弱 的 安全 性 ， 但 对 于 像 家 庭 802. 11 网 络 这 样 的 环境 来 说 更 方便 有 旦 更 经 济 。 无 线 
设备 和 接 入 点 AP) 被 预先 配置 一 个 共享 的 密码 短语 口令 (passphrase) 一 一 本 质 上 是 一 
个 非常 长 的 口令 ， 通 过 密码 学 方式 从 该 口令 可 推导 出 主 密 钥 。 

802. 11i 的 更 强 的 认证 模式 基于 IEEE 802. 1X 局 域 网 访问 控制 框架 ， 它 使 用 了 一 台 认 
WEIR at CAS), ， 如 图 8-19 所 示 。AS 和 AP 必须 通过 安全 信道 相连 ， 甚 至 可 以 在 同一 人 台 
主机 上 ， 但 它们 在 逻辑 上 是 分 离 的 。AP 在 无 线 设备 与 AS 之 间 转 发 认证 消息 。 用 于 认证 
的 协议 是 可 扩展 认证 协议 (Extensible Authentication Protocol, EAP), EAP 支持 多 种 认 
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证 方法 智能 卡 、Kerberos、 一 次 性 口令 、 公 钥 认 证 等 一 一 以 及 单方 认证 和 双方 认证 。 
因此 ， 与 其 说 EAP 是 一 个 协议 ， 不 如 说 它 是 一 个 认证 框架 。 大 量 与 EAP 兼容 的 协议 称 为 
EAP 方法 (EAP methods)。 例 如 ，EAP-TLS 就 是 一 个 基于 TLS 认证 的 EAP 方法 CA 
8.4.3 45) | 





无 线 <。 “可 扩展 认证 


连接 人 H (EAP) 





sets ee 





图 8-19 在 802.11i 中 使 用 认证 服务 器 


802. 11i 对 于 将 什么 EAP 方法 作为 认证 基础 没有 做 任何 限制 。 然 而 ， 它 的 确 要 求 一 种 
能 实现 双向 (mutual) 认证 的 EAP 方法 ， 因 为 我 们 不 但 要 防止 攻击 者 通过 我 们 的 AP 访 
问 网 络 ， 而 且 和 希望 防止 攻击 者 用 一 个 伪造 的 恶意 AP 昕 和 弄 我 们 的 无 线 设 备 。 成 功 认 证 的 最 
终结 果 是 无 线 设 备 与 AS 之 间 共 享 的 主 密 钥 对 ， 然 后 AS 把 这 个 密 钥 传递 给 AP。 

较 健 壮 的 基于 AS 的 模式 与 较 弱 的 个 人 模式 之 间 的 主要 区 别 之 一 是 前 者 很 容易 支持 每 
个 客户 有 一 个 唯一 审 铀 。 这 就 使 得 更 改 能 够 目 认 证 的 客户 集 《〈 例 如 ， 撤 销 对 一 个 客户 的 访 
问 ) 变 得 更 容易 ， 不 需要 改变 存储 在 每 个 客户 端的 秘密 信息 。 

有 了 主 密 钥 对 以 后 ， 无 线 设 备 和 AP 执行 一 个 称 为 四 次 握手 的 会 话 密 钥 建立 协议 来 建 
立 短 期 密 钥 对 。 这 个 短期 密 钥 对 实际 上 是 一 个 密 钥 集合 ， 其 中 包括 称 为 临时 密 钥 (tempo- 
ral key) 的 会 话 密 钥 。 会 话 密 钥 被 协议 CCMP 使 用 ， 为 802. 11i 提供 数据 保密 和 完整 性 。 

CCMP 代表 使 用 带 有 消息 认证 人 码 的 密码 分 组 链接 〈Cipher-Block Chaining with Mes- 
sage Authentication Code, CBC-MAC) 协议 的 CTR (计数 器 模式 )。CCMP 使 用 计数 需 
模式 的 AES 进行 加 密 来 提供 机 密 性 。 回 忆 一 下 计数 器 模式 加 密 ， 来 自 计 数 器 的 连续 值 被 
集成 到 连续 明文 块 的 加 密 中 ( 见 8. 1. 1 市 )。 

CCMP 使 用 一 个 消息 认证 码 (MAC) 作为 认证 码 。 虽 然 CCMP 在 机 密 性 加 密 时 不 使 
用 CBC, 该 MAC 算法 是 基于 CBC ( 见 8.1.1 节 ) 的 。 事 实 上 ， 在 执行 CBC 时 ,不 传输 
任何 CBC 加 密 块 ， 而 只 是 将 最 后 一 个 CBC 加 密 块 作为 MAC (实际 上 只 使 用 它 的 前 8 AF 
节 )。 初 始 向 量 是 由 特殊 构造 的 第 一 个 块 充当 的 ， 该 块 包含 一 个 48 位 的 分 组 号 (这 个 分 组 
号 也 用 于 机 密 性 加 密 以 及 抵抗 重 放 攻击 ) 一 一 一 个 序列 号 。 然 后 ，MAC 和 明文 一 起 被 加 
密 以 便 抵抗 生日 攻击 ， 生 日 攻击 依赖 于 找到 具有 相同 认证 码 的 不 同 消息 〈 见 8. 1. 4 49). 
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虽然 本 章 的 大 部 分 内 容 集中 在 使 用 密码 学 来 提供 诸如 认证 和 机 密 性 等 安全 特性 ， 但 存 
在 很 多 无 法 用 密码 学 方法 解决 的 安全 问题 。 例 如 ， 蠕 虫 和 病毒 通过 利用 操作 系统 及 应 用 程 
序 的 错误 (有 时 是 利用 人 类 容易 受骗 的 弱点 ) 来 传播 ， 没 有 多 少 密码 学 方法 能 够 帮助 没有 
对 漏洞 打 补 丁 的 计算 机 。 因 此 ， 需 要 经 常 使 用 其 他 方法 来 阻止 不 同形 式 的 潜在 有 害 流量 。 
防火 墙 是 最 常见 的 方法 之 一 。 

防火 墙 是 一 种 处 在 它 所 保护 的 站 点 与 网 络 其 他 部 分 之 间 的 某 个 点 上 的 系统 ， 如 图 8-20 
所 示 。 它 通常 是 作为 一 台 “ 设 备 ” 或 路 由 器 的 一 部 分 来 实现 的 ， 虽 然 “ 个 人 防火 墙 ” 可 以 
在 终端 用 户 计算 机 上 实现 。 基 于 防火 墙 的 安全 依赖 于 防火 墙 是 从 外 部 接 入 站 点 的 唯一 连接 
点 ， 通 过 其 他 网 关 、 无 线 连 接 或 拨号 连接 来 旁 路 防火 墙 是 不 可 能 的 。 在 网 络 环境 中 用 
“ 墙 ” 来 做 比喻 有 些 误导 ， 因 为 有 大 量 流量 穿 过 防火 墙 。 一 种 理解 防火 墙 的 方法 是 它 在 默 
认 情 况 下 阻止 流量 ， 除 非 该 流量 被 专门 允许 通过 。 例 如 ， 它 可 能 会 过 滤 掉 所 有 到 达 特 定 IP 
地 址 或 特定 TCP 端口 号 的 输入 消息 。 














防火 墙 









远程 的 公司 用 户 





公司 站 点 


随机 的 外 部 用 户 
图 8-20 防火墙 过 滤 站 点 与 因特网 其 他 部 分 之 间 的 分 组 


事实 上 ， 防 火 墙 将 网 络 划分 为 一 个 较 可 信 的 区 域 和 一 个 不 太 可 信 的 区 域 这 对 于 不 想 
让 外 部 用 户 访 问 站 点 内 部 一 个 特定 的 主机 或 服务 的 情况 是 有 用 的 。 而 问题 的 复杂 性 来 自 于 
你 希望 允许 不 同 的 外 部 用 户 使 用 不 同 的 访问 ， 外 部 用 户 的 范围 从 一 般 公共 用 户 到 业务 合作 
伙伴 到 组 织 内 的 远程 成 员 。 防 火 墙 还 可 以 对 外 出 的 流量 施加 限制 ， 以 便 预 防 一 些 攻击 ， 并 
且 当 攻击 者 成 功 获得 防火 墙 内 的 访问 权 后 限制 造成 的 损失 ，。 | 

防火 墙 可 以 用 于 创建 多 个 信任 区 域 (zones of trust)， 就 像 一 个 信任 度 逐 渐 增 加 的 信 
任 区 域 组 成 的 层次 结构 。 一 种 常见 的 布局 包括 三 个 信任 区 域 ， 内 部 网 络 、DMZ ( 非 军事 
区 ) 以 及 因特网 的 其 他 部 分 。DMZ 用 于 放置 供 外 部 访问 的 服务 ， 如 DNS 和 电子 邮件 服务 
售 。 内 部 网 络 和 外 部 网 络 都 可 以 访问 DMZ, 但 DMZ 中 的 主机 不 能 访问 内 部 网 络 。 因 此 ， 
如 采 攻 击 者 成 功 攻 击 了 DMZ 中 的 一 台 主 机 ， 他 们 依然 不 能 访问 内 部 网 络 。DMZ2Z 可 以 定期 
me, MER TE” RE. 


昌 防火 墙 的 位 置 通常 也 是 全 局 可 寻 址 区 域 与 使 用 本 地 地 址 的 区 域 之 间 的 分 界线 。 因 此 ， 网 络 地 址 转换 (Net- 
work Address Translation, NAT, Ji 4. 1. 3 W) 功能 和 防火 墙 功能 通常 都 能 在 同一 设备 中 找到 ， 虽 然 它们 在 
逻辑 上 是 分 离 的 。 


> 


网 K 3568 


防火 墙根 据 IP. TCP 和 UDP 等 信息 进行 过 滤 ， 配 置 过 程 使 用 一 个 能 表示 要 转发 和 不 
转发 分 组 特点 的 地 址 表 。 但 就 地 址 而 言 ， 我 们 不 仅仅 是 指 目标 IP 地 址 ， 虽 然 这 是 一 种 可 
能 性 。 通 和 党， 表 中 的 每 一 条 记录 是 一 个 4 元 组 : 它 给 出 源 和 目标 的 IP 地 址 以 及 TCP (或 
UDP) 端口 号 。 

例如 ， 一 个 防火 墙 可 以 被 配置 成 过 滤 掉 (不 转发 ) 与 下 列 描 述 匹 配 的 所 有 分 

ea a e 

个 模式 指出 过 滤 掉 从 地 址 为 192. 12.13.14 的 主机 的 1234 端口 发 送 到 主机 128.7.6.5 的 
80 端口 的 所 有 分 组 。《〈 端 口 80 是 众所周知 的 用 于 HTTP 的 TCP 端口 .) 当然 ， 列 出 每 个 
A a e 

<ko NOR TG, 5580 = 
ee eee eee 不 管 是 什么 源 主机 或 端口 发 送 的 分 组 。 

意 ， 像 这 些 地 址 模式 要 求 防火 墙 除了 基于 第 三 层 的 主机 地 址 外 ， 还 要 基于 第 四 层 的 端口 
a 

在 前 面 的 讨论 中 ， 防 火 墙 会 转发 所 有 分 组 ， 除 非 被 特别 设置 为 过 滤 掉 某 类 分 组 。 防 火 
墙 也 可 以 过 滤 掉 所 有 分 组 ， 除 非 被 显 式 设置 为 转发 该 分 组 。 也 可 以 混合 使 用 这 两 种 策略 。 
例如 ， 防 火 墙 可 以 被 设置 为 只 允许 访问 在 一 个 特定 邮件 服务 器 上 的 25 端口 (SMTP 邮件 
端口 ) ， 而 不 是 阻塞 访问 128.7.6.5 主机 上 的 80 端口 ， 例 如 ， 

Se 0 D0 
但 要 阻塞 所 有 其 他 通信 和 量 。 经 验 表 明 ， 防 火 墙 经 常会 设置 错误 ， 而 允许 不 安全 的 访问 。 
个 问题 是 过 滤 规 则 会 以 复杂 的 方式 重生 ,使 得 系统 管理 员 很 难 正 确 地 表达 过 滤 意 图 。 使 安 

全 性 最 大 化 的 一 一 个 设计 原则 是 将 防火 墙 配置 为 天 弃 所 有 分 组 ， 除 非 该 分 组 被 显 式 地 多 许 通 
过 。 当 然 ， 这 意味 着 某 些 有 效 的 应 用 可 能 会 被 意外 阻止 ， 这 些 应 用 的 用 户 最 终 会 注意 到 问 
题 并 让 系统 管理 员 进 行 适 当 的 更 改 。 

很 多 客户 端 - 服 务 器 应 用 动态 地 为 客户 分 配 端 口 。 如 果 防 火 墙 内 的 一 ee 
外 部 服务 器 的 访问 ,该 服务 器 的 响应 会 被 寻 址 到 这 个 动态 分 配 的 端口 。 这 会 引起 一 个 问 
题 ， 如何 设 置 防火 墙 ， 使 之 允许 来 自 服务 器 的 任何 响应 分 组 ， e 
似 分 组 ? 这 对 于 单独 处 理 每 一 个 分 组 的 无 状态 防火 墙 (stateless firewall) 是 不 可 能 实现 
的 ， 因 此 需要 采用 有 状态 防火 墙 (stateful firewall) ， 它 会 记录 每 个 连接 的 状态 信息 。 一 
个 被 寻 址 到 动态 分 配 端口 的 输入 分 组 会 被 允许 通过 的 唯一 条 件 是 ， 它 是 该 端口 上 连接 的 当 
前 状态 的 一 个 有 效 响 应 。 

现代 防火 墙 也 能 够 理解 并 根据 很 多 特定 的 应 用 层 协议 Can HTTP, Telnet 或 FTP) 
进行 过 滤 ， 它 们 使 用 特定 于 那个 协议 的 信息 〈 如 HTTP 中 的 URL) 来 决定 是 否 丢弃 消息 。 


Ba JX te HY AÈ ra AA E A 


防火 墙 只 是 保护 网 络 免 受 来 自 因 特 网 其 他 部 分 的 不 期 望 的 访问 ， 它 不 能 为 防火 墙 内 部 
网 络 之 间 以 及 防火 墙 外 部 网 络 之 间 的 合法 通信 提供 安全 性 。 相 比 之 下 ， 本 章 所 描述 的 基于 
密码 的 安全 机 制 则 能 够 为 处 在 任何 位 置 的 参与 者 之 间 提 供 安 全 的 通信 。 既 然 情 况 如 此 ， 为 
什么 防火 墙 还 是 这 么 普遍 ? 一 个 原因 是 部 署 防火 墙 时 只 需要 用 成 熟 的 商业 产品 在 一 方 部 
署 ， 而 基于 密码 的 安全 需要 通信 的 两 端 都 提供 支持 。 防 火 墙 处 于 主导 地 位 的 一 个 更 本 质 的 
”原因 是 它们 在 一 个 中 心 位 置 封装 了 安全 性 ， 实 际 上 将 安全 性 从 网 络 的 其 他 部 分 剥离 。 系 统 








管理 员 能 够 通过 管理 防火 墙 来 提供 安全 性 ， 使 得 防火 墙 内 的 用 户 和 应 用 不 需要 考虑 安全 问 
至 少 不 需 要 考虑 某 些 安全 问题 。 | 

遗憾 的 是 ， 防 火 墙 有 严重 的 缺陷 。 因 为 防火 墙 不 限制 防火 墙 内 主机 之 间 的 通信 ， 所 以 
能 够 控制 站 点 内 代码 运行 的 攻击 者 可 以 访问 所 有 本 地 主机 。 攻 击 者 如 何 进 入 防火 墙 呢 ? 攻 
击 者 可 能 是 一 个 拥有 合法 访问 权限 的 不 满 的 员工 ， 或 者 攻击 者 的 软件 被 隐藏 在 通过 CD 安 
装 或 从 Web 下 载 的 软件 中 ， 或 者 攻击 者 能 够 通过 无 线 通 信 或 电话 拨号 连接 来 劳 路 防火 增 。 

另 一 问题 是 ， 任 何 被 允许 通过 防火 墙 的 实体 〈 如 商业 伙伴 或 位 于 外 部 的 员工 ) 都 可 能 
成 为 安全 缺陷 。 如 果 他 们 的 安全 性 不 像 你 的 那么 好 ， 那 么 攻击 者 能 够 通过 穿 透 他 们 的 安全 
防护 从 而 穿 透 你 的 安全 防护 。 

防火 墙 最 严重 的 问题 之 一 是 容易 被 防火 墙 内 部 计算 机 上 的 缺陷 破坏 。 这 些 缺 陷 经 常 被 
发 现 ， 因 此 管理 员 不 得 不 一 直 监 视 相 关公 告 。 但 管理 员 经 常 做 不 到 这 一 点 ， 因 为 防火 墙 安 
全 违规 经 常 利 用 存在 了 一 段 时 间 而 且 有 简单 解决 方案 的 漏洞 。 

术语 恶意 软件 (malicious software, malware) 是 指 被 设计 成 以 一 种 计算 机 用 户 不 期 
望 的 并 且 不 易 发 党 的 方式 运作 的 软件 。 病 毒 、 蠕 虫 和 间谍 软件 是 恶意 软件 的 管见 类 型 。 
(病毒 (virus) 有 时 与 恶意 软件 通用 ， 但 我 们 以 狭义 方式 使 用 它 ， 只 是 指 特定 的 一 类 恶意 
软件 ) 。 亚 意 代码 不 一 定 是 可 执行 的 目标 码 ， 它 也 可 能 是 解释 代码 ， 如 脚本 或 微软 Word 
中 使 用 的 可 执行 的 宏 。 | 

病毒 (virus) F3 k (worm) 的 特点 是 能 够 制造 并 散布 自身 的 备份 ， 它 们 之 间 的 区 
别 是 ,蠕虫 是 完整 的 程序 ， 而 病毒 是 搬入 〈 揪 入 它 自 己 的 备份 ) 到 另 一 个 软件 中 或 一 个 文 
件 中 的 一 段 代码 ， 因 此 ， 当 软件 执行 或 打开 文件 的 时 候 ， 病 毒 也 被 执行 了 。 典 型 情况 下 ， 
病毒 和 蚂 忠 会 造成 因 试图 传播 自身 的 备份 而 引起 的 网 络 带 宽 消 耗 。 更 糟糕 的 是 ， 它 们 也 可 
能 会 以 不 同方 式 著 意 破坏 系统 或 毁坏 其 安全 性 。 人 例如， 它们 可 以 安装 一 个 后 门 《back- 
door)， 后 门 是 不 经 过 正常 认证 就 允许 远程 访问 系统 的 软件 。 这 可 能 会 导致 防火 载运 句 一 
个 本 身 应 该 提供 认证 过 程 而 被 后 门 破坏 的 服务 。 

间 诬 软件 是 未 经 授权 的 收集 和 传输 有 关 计 算 机 系统 及 其 用 户 隐 私信 息 的 软件 。 通 常 ， 
间 诬 软件 被 秘密 地 般 入 到 一 个 本 来 有 用 的 程序 中 ， 并 随 用 户 安 装 该 程序 的 备份 时 被 传播 。 
对 防火 墙 来 说， 问题 是 这 些 私 有 信息 的 传输 看 上 去 像 合 法 通信 。 

一 个 很 目 然 锌 提出 的 问题 是 ， 防 火 墙 〈 或 密码 学 安全 ) 能 否 首 先 将 恶意 软件 排除 在 系 
统 之 外 。 绝 大 部 分 恶意 软件 实际 上 是 通过 网 络 传输 的 ， 虽 然 也 可 能 通过 可 移动 存储 设备 传 
输 ， 如 CD 和 记忆 棒 。 当 然 ， 这 是 支持 “阻止 没有 被 显 式 允 许 的 所 有 信息 ”， 很 多 管理 员 
都 在 配置 防火 墙 时 采用 该 方法 。 

检测 恶意 软件 的 一 种 方法 是 查找 来 自己 知 恶意 软件 的 代码 段 ， 有 时 称 为 特征 (signa- 
ture) 。 聪 明 的 恶意 软件 会 用 不 同 的 方式 调整 其 表示 方式 ， 因 此 这 种 方法 受到 了 限制 。 对 
”进入 网 络 的 数据 进行 如 此 详细 的 审查 可 能 会 影响 网 络 性 能 。 密 码 学 安全 也 不 能 消除 这 个 问 
题 ， 虽 然 它 的 确 提 供 了 一 种 认证 软件 来 源 并 检测 算 改 (例如 病毒 插入 自身 的 备份 ) 的- 
Denier 

与 防火 墙 相关 的 是 入 侵 检 测 系 统 CIntrusion Detection System, IDS) 和 入 侵 防 御 系 
统 (Intrusion Prevention System，1IPS)。 这 些 系 统 试图 寻找 异常 行为 ， 如 发 向 给 定 主 机 或 
给 定 端口 号 的 不 正常 的 大 量 流量 ， 并 向 网 络 管理 者 生成 警告 甚至 直接 采取 行动 限制 可 能 的 
攻击 ， 虽 然 现在 在 该 领域 有 商业 产品 ， 但 它 仍 处 在 发 展 阶段 。 
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8.6 小 结 


像 因 特 网 这 样 的 网 络 是 由 利益 互相 冲突 的 实体 所 共享 的 ， 这 种 情况 在 网 络 互 联 的 早期 
是 完全 无 法 预见 的 。 网 络 安全 的 任务 就 是 防止 一 些 用 户 监 视 或 影响 其 他 用 户 的 网 络 使 用 。 
机 密 性 是 通过 加 密 消 息 来 得 到 的 ， 数 据 完 整 性 可 以 通过 使 用 密码 散 列 来 确保 ， 两 种 技术 结 
合 起 来 可 以 确保 消息 的 真实 性 。 | 

对 称 密 钥 密码 ， 如 AES 和 3DES， 在 加 密 和 解密 时 使 用 相同 的 秘密 密 铀 ， 因 此 发 送 方 
和 接收 方 必须 共享 相同 的 密 钥 。 公 钥 密 码 ， 如 RSA， 使 用 公 钥 进行 加 密 ， 使 用 一 个 秘密 
的 私 钥 进行 解密 。 这 意味 着 任何 实体 都 能 用 该 公 钥 加 密 一 条 消息 ， 使 得 消息 只 对 私 钥 的 持 
有 者 才 可 读 。 已 知 最 快 的 破解 已 建立 的 密码 (如 AES 和 RSA) 的 方法 是 在 可 能 的 密 钥 空 
间 中 进行 蛮 力 搜索 ， 通 过 使 用 大 密 钥 能 够 使 得 这 种 方法 在 计算 上 不 可 行 。 大 部 分 用 于 保密 
的 加 密使 用 对 称 密 钥 密码 ， 因 为 它们 有 非常 出 众 的 速度 ， 而 公 钥 密码 通常 用 于 认证 和 会 话 
密 钥 建立 。 

认证 码 是 附加 到 消息 后 用 于 验证 消息 真实 性 和 数据 完整 性 的 一 个 值 。 生 成 认证 码 的 一 
种 方法 是 加 密 由 密码 散 列 函数 (如 MD5 或 SHA-1 散 列 族 中 的 一 个 函数 ) 输出 的 消息 摘 
要 。 如 果 消 息 摘要 是 用 公 钥 密码 的 私 钥 加 密 的 ， 所 得 出 的 认证 码 被 认为 是 数字 签名 ， 因 为 
公 钥 可 以 被 用 于 验证 只 有 私 钥 的 拥有 者 能 够 产生 该 签名 。 另 一 类 认证 码 是 消息 认证 码 ， 它 
是 由 类 散 列 函数 以 一 个 共享 的 秘密 值 为 参数 而 产生 的 。 散 列 MAC 是 将 密码 散 列 应 用 于 明 
文 消息 与 该 秘密 值 的 串 接 后 计算 出 的 MAC, 

会 话 密 钥 被 用 于 保护 相对 较 短 的 一 段 通信 。 会 话 密 钥 的 动态 建立 依赖 于 长 期 存在 的 预 
分 发 密 钥 。 特 定 实体 对 预 分 发 密 钥 的 所 有 权 可 以 通过 由 可 信和 实体 数字 签名 的 公 钥 证 书 来 证 
明 。 公 钥 基 础 设施 是 用 来 验证 这 种 绑 定 的 完整 机 制 ， 它 依赖 于 信任 网 络 或 信任 链 。 用 于 对 
称 密 钥 密码 的 密 钥 的 预 分 发 方法 是 不 同 的 ， 因 为 无 法 使 用 公 钥 证 书 ， 并 且 每 一 对 参与 者 都 
需要 唯一 的 密 钥 。 密 钥 分 发 中 心 与 每 一 个 参与 者 都 共享 一 个 预 分 发 密 钥 的 可 信 实 体 ， 因 此 
参与 者 之 间 可 以 使 用 会 话 密 钥 ， 而 不 能 使 用 预 分 发 密 钥 。 

认证 和 会 话 密 钥 建立 要 求 协议 确保 消息 的 时 效 性 和 原始 性 。 时 间 稚 或 当前 值 能 够 用 于 
标识 消息 的 时 效 性 。 我 们 看 了 两 个 使 用 公 钥 密码 的 认证 协议 ,一 个 要 求 时 钟 同步 ， 而 另 一 
个 不 需要 。Needham-Schroeder 是 认证 两 个 参与 者 的 协议 ， 每 个 参与 者 都 与 密 钥 分 发 中 心 
共享 一 个 主 对 称 密码 密 铀 。Kerberos 是 一 个 基于 Needham-Schroeder 协议 的 认证 系统 ， 专 
门 用 于 客户 端 / 服 务 器 环境 。Diffie-Hellman 密 钥 协 商 协议 在 不 预 分 发 密 铀 和 不 认证 的 情况 
下 建立 会 话 密 钥 。 

我 们 介绍 了 几 个 使 用 这 些 密码 算法 和 协议 提供 安全 性 的 系统 。 在 应 用 层 ，PGP 可 以 用 
来 保护 电子 邮件 消息 ，SSH 可 以 用 于 安全 地 连接 到 一 台 远 程 计 算 机 。 在 传输 层 ，TLS 可 
用 于 保护 WWW 上 的 商务 交易 。 在 网 络 层 ，IPsec 体系 结构 可 用 于 因特网 上 任何 主机 和 网 
关 集 合 之 间 的 安全 通信 。 | 

防火 墙 对 它 所 保护 的 站 点 与 网 络 其 他 部 分 之 间 传 输 的 消息 进行 过 滤 。 防 火 墙根 据 IP. 
TCP 和 UDP 地 址 进行 过 滤 ， 也 根据 一 些 应 用 协议 中 的 字段 进行 过 滤 。 有 状态 防火 墙 跟 路 
每 个 连接 的 状态 ， 以 便 允 许 将 有 效 的 响应 传送 到 动态 分 配 的 端口 。 虽 然 防火 墙 安 全 有 一 些 
重要 的 局 限 ， 但 它 的 优点 是 将 一 些 安全 责任 从 用 户 和 应 用 转移 到 系统 管理 员 。 














接 下 来 会 发 生 什 么 : 面 对 安 全 


如 果 你 问 任何 因特网 研究 者 这 样 一 个 问题 : “如 果 我 们 能 够 重新 建造 因特网 ， 什 么 会 
是 未 来 因特网 应 具备 的 最 重要 的 特点 ?”， 答 案 很 可 能 会 涉及 更 好 的 安全 性 。 思 考 这 个 问题 
的 一 个 角度 是 因特网 是 由 一 个 很 小 的 团体 设计 的 ， 当 时 他 们 只 是 想 访问 对 方 的 计算 机 ， 而 
当今 的 因特网 被 一 个 巨大 的 全 球 性 的 团体 所 使 用 ， 包 括 相当 数量 的 犯罪 分 子 希望 访问 其 他 
大 量 计算 机 。 因 此 ， 这 种 默认 公开 访问 的 设计 不 太 适 合 当 今 社会 。 

有 大 量 理论 研究 试图 改善 这 种 状况 。 妆 然 ， 一 个 问题 是 因特网 是 日 常生 活 中 如 此 重要 
的 部 分 ， 以 至 于 我 们 无 法 想象 用 一 个 新 的 重新 设计 的 版 本 来 蔡 换 它 。 但 是 ， 的 确 有 大 量 
“从 零 开 始 ” 的 研究 正在 进行 ， 其 理论 基础 工作 在 不 受 增 量 部 署 问题 影响 的 未 来 的 互联 网 
上 ， 这 可 能 会 带 来 一 些 新 的 见解 ， 在 将 来 用 于 更 新 当前 的 因特网 。 (参考 第 3 章 中 的 “ 扩 
展 阅 读 ”。) 

短期 展望 似乎 是 继续 玩 猪 捉 老 鼠 的 游戏 。 防 火 墙 、 人 侵 检测 系统 和 DoS 缓解 系统 变 得 
更 复杂 ， 攻 击 者 寻找 新 方法 来 对 付 这 些 系统 的 防御 ， 这 些 系 统 则 变 得 更 擅长 抵抗 新 攻击 。 
有 利 的 一 面 是 ， 很 多 安全 系统 效果 很 好 ， 如 果 不 是 因为 传输 层 安 全 (TLS) 和 所 有 密码 学 
方法 提供 有 效 的 支持 ，Web 上 不 会 有 如 此 多 的 电子 商务 系统 。 

曾 用 于 描述 因特网 未 来 愿景 的 词 是 “一 个 值得 社会 信任 的 互联 网 ”。 显然， 实现 这 个 
愿景 是 巨大 的 挑战 ， 保 护 网 络 安全 将 会 是 未 来 一 段 时 间 内 的 一 个 研究 和 创新 的 领域 。 


扩展 阅读 


前 篇 有 关 安 全 的 文章 ， 共 同 对 本 主题 给 出 了 很 好 的 综述 。Lampson 等 人 的 文章 包含 安 

全 的 形式 化 论述 ， 而 Satyanarayanan 的 文章 对 在 实际 中 怎样 设计 一 个 安全 系统 进行 了 详细 

描述 。 第 三 篇 文章 给 出 IPsec 安全 体系 结构 的 概述 ， 而 且 它 是 全 面 了 解 当 今 因特网 安全 状 
人 态 的 很 好 的 起 点 。 

o Lampson, B.et al. Authentication in distributed systems; Theory and prac- 

tice. ACM Transactions on Computer Systems 10 (4) 265-310, November 1992. 

e Satyanarayanan, M. Integrating security in a large distributed system. ACM Trans- 

actions on Computer Systems 7 (3): 247-280, August 1989. 














Le Staniford, S., V. Paxson, and N. Weaver. How to Own the Internet in Your 
Spare Time. USENIX Security Symposium 2002, pp. 149- 167. San Francisco, 
CA, August 2002. 

Al LASSE EST AR OT PE HIM SN TD. BATT EWE Schneier [Sch95], Stall- 
ings | Sta03] # Kaufman 等 | KPS02] 的 书 。 前 两 本 对 本 主题 给 出 全 面 的 分 析 ， 而 最 后 
一 本 就 这 个 主题 给 出 非常 易 读 的 概述 。IPsec 的 完整 的 体系 结构 定义 在 一 系列 RFC 中 ， 
[Ken05a], LEas05], [MG98a], [MG98b], [MD98]. [Ken05b], [Kau05]. OpenPGP 
标准 的 定义 在 [calo7] 中 ， 最 新 的 TLS 标准 的 定义 在 [DR08] H. Barrett 和 Silverman 
的 书 [BS01] 给 出 SSH 的 完整 描述 。Menezes 等 [MvOV96] 的 书 是 一 本 全 面 的 密码 学 参 
考 书 (在 下 面 的 URL 中 能 够 免费 下 载 该 书 的 拷贝)。 | 

对 于 辨别 和 防范 拒绝 服务 攻击 这 一 问题 的 讨论 ， 可 以 在 Moore 等 [MVS01], Spats- 
check 和 Peterson [SP99] Wk Qie 等 LQPP02] 的 书 中 看 到 。 用 来 辨别 攻击 源 的 最 新 技 
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术 可 以 在 Savage 等 [SWKA00] 和 Snoeren 等 [SPS+ 01] 的 几 篇 论文 中 找到 。Garber 
LGar00] 和 Harrison |Har00] Wis DDoS 攻击 带 来 的 越 来 越 大 的 威胁 ，Park 和 Lee 的 
论文 LPL01] 介绍 了 早期 用 来 防范 这 些 攻击 的 一 种 方法 。Yang 等 [YWA08] 的 TVA 方 
法 是 一 种 新 的 Dos 防御 方法 ， 属 于 “从 零 开 始 ” 的 研究 类 型 。 
最 后 ， 我 们 推荐 下 列 网 址 供 实 时 参考 ， 
° http://www. cert. org/: 计算 机 紧急 事件 响应 组 (CERT) 的 网 址 ，CERT 是 关注 
计算 机 安全 问题 的 组 织 。 
e http://www. cacr. math. uwaterloo. calhat: | MvOV96] 的 可 下 载 拷贝 ， 这 是 一 
本 全 面 的 密码 学 参考 书 。 


习题 

1. 在 你 的 系统 中 查找 或 安装 一 个 加 密 程 序 (例如 ，Unix 的 des 命令 或 pgp 命令 ) 。 阅 读 其 文档 并 用 它 进 
行 实验 。 测 试用 它 对 数据 加 密 和 解密 有 多 快 。 加 密 和 解密 的 速率 相同 吗 ? 试 比 较 一 些 使 用 不 同 密 钥 长 
度 的 计时 结果 ， 例 如 ， 比 较 AES 和 三 重 DES。 

2. 画 出 类 似 8. 1. 1 市 中 描述 的 图 来 表示 密码 分 组 链 。 

3. 学 习 一 个 密 钥 托管 方案 〈 例 如 ，Clipper) 。 密 钥 托 管 的 优点 和 缺点 是 什么 ? 

4. 一 个 好 的 密码 散 列 算法 应 该 产生 随机 输出 ， 换 言 之 ， 任 何 给 定 散 列 值 的 概率 应 该 与 随机 选取 的 输入 数 
据 对 应 的 散 列 值 的 概率 大 致 相同 。 如 果 所 使 用 的 散 列 算法 的 输出 不 是 随机 的 ， 会 产生 什么 后 果 呢 ? 例 
如 ， 考 虑 这 种 情况 ， 一 些 散 列 值 出 现 的 可 能 性 是 其 他 散 列 值 的 2 倍 。 

5. 假设 Alice 使 用 8. 3. 3 节 中 描述 的 Needham-Schroeder 认证 协议 来 发 起 一 个 与 Bob 的 会 话 。 进 一 步 假设 
攻击 者 能 够 窃听 认证 消息 ， 并 在 会 话 完成 后 很 久 才能 发 现 GR) 会 话 密 钥 。 攻 击 者 如 何其 骗 Bob 使 
他 将 攻击 者 认证 为 Alice。 

6. 在 口令 认证 中 抵制 重 放 攻 击 的 一 个 机 制 是 使 用 一 次 性 口令 (one-time password); 准备 一 个 口令 列表 ， 
一 旦 password [N] 被 接受 ， 服务 器 就 对 NN 减 1， 并 在 下 次 提示 输入 password LN 一 1]。 当 N=0 时 ， 
需要 新 列表 。 描 述 一 个 机 制 ， 使 得 用 户 和 服务 器 仅 需要 记 住 一 个 主 口 令 mp， 并 且 有 在 本 地 计算 
password. N|=f(mp, N) 的 可 用 方法 。 提 示 : Kg 是 一 个 合适 的 单 同 了 渔 数 《如 MD5)， 并 设 password 
[N]=2 (mp) =g 对 mp 应 用 NN 次。 解释 为 什么 知道 password N] 并 不 会 有 助 于 揭示 password N—1]. 

7. 假设 用 户 使 用 上 述 的 一 次 性 口令 (或 者 可 重用 的 口令 ), 但 是 口令 的 传送 足够 慢 ，。 

(a) 说 明 窃 听 者 在 一 定数 量 的 猜测 后 可 获得 对 远程 服务 器 的 访问 。 提示: 原 用 户 输入 口令 的 除 最 后 
一 个 字符 外 的 所 有 字符 后 ， 先 听 者 开始 猜测 。) 
(b) 一 次 性 口令 的 用 户 可 能 遇 到 什么 样 的 其 他 攻击 ? 

8. Diffie-Hellman 密 钥 交 换 协 议 容 易 受 到 “中 间 人 ”攻击 ， 如 8.3.4 节 和 图 8-12 所 示 。 简 述 怎样 扩展 
Diffie-Hellman 才能 让 它 防 范 这 种 可 能 的 攻击 。 a 

9. 假设 我 们 有 一 个 非常 短 的 秘密 (例如 ， 一 个 比特 或 者 一 个 社会 保障 码 ) ， 而 且 我 们 希望 发 送 给 其 他 人 
一 条 消息 m， 其 中 不 会 暴露 *， 但 随后 能 用 于 验证 我 们 确实 知道 *。 解 释 为 什么 利用 RSA 加 密 的 m= 
MD5(s) 或 者 m=E(s) 不 是 安全 的 选择 ， 并 给 出 一 个 更 好 的 选择 。 

10. 假设 两 个 人 想 在 网 络 上 打 扑克 。 为 了 发 牌 ， 他 们 需要 一 个 在 他 们 之 间 公 平 选 择 随 机 数 z 的 机 制 ， 如 
果 一 方 能 不 公平 地 影响 z 的 选择 ， 则 另 一 方 输 了 。 描 述 这 样 的 一 个 机 制 。 (提示 : 假设 如 果 两 个 比特 

Ba. 2 之 一 是 随机 的 ， 则 二 者 的 异 或 =r Pr, 也 是 随机 的 。) l 

ll. 估算 找到 两 条 具有 相同 MDS 校 验 和 的 消息 的 概率 ， 假 设 消 息 的 总 数 分 别 是 2°, 254 25 。 (提示 : 
这 又 是 一 个 生日 问题 ， 就 像 第 2 章 的 习题 48 那样 ， 而 且 第 & 十 1 个 消息 有 不 同 于 前 & 个 消息 的 校 验 和 
的 概率 是 1 一 上 /2128 。 但 是 ， 在 那 道 习题 的 提示 中 简化 了 积 的 近似 值 ， 这 一 点 现在 不 适用 了 。 所 以 ， 
每 一 端 分 别 取 对 数 ， 并 使 用 近似 什 logd — k/2"8 a — k/2"8 。) | 
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假设 我 们 想 用 3DES 加 密 一 个 Telnet SiG. Telnet 发 送 很 多 1 字 节 的 消息 ， 而 3DES 一 次 加 密 8 字 节 

的 分 组 。 解释 怎 样 在 这 个 场景 中 安全 地 使 用 3DES。 

考虑 下 列 用 于 下 载 文件 的 简单 UDP HN KREA TFTP 为 基础 ， 即 RFC 1350): 

。 客户 端 发 送 一 个 文件 请 求 。 

。 服务 器 用 第 一 个 数据 分 组 响应 。 

。 客户 端 发 送 ACK， 双 方 以 停止 - 等 待 协议 进行 交互 。 

假设 客户 端 和 服务 器 分 别 拥有 密 钥 Kc 和 Ks， 并 且 彼 此 知道 对 方 的 密 钥 。 

(a) 用 这 些 密 钥 和 MDS 扩展 文件 下 载 协 议 ， 提 供 发 送 方 认证 和 消息 完整 性 。 你 的 协议 也 应 是 可 抵抗 
重 放 攻 击 的 。 

Cb) 在 你 修改 协议 时 所 增加 的 额外 信息 怎样 防止 出 现 晚 到 的 来 自 之 前 连接 的 分 组 以 及 序列 号 的 回 绕 。 

利用 你 选择 的 浏览 器 ， 找 到 你 的 浏览 器 对 HTTPS 默认 配置 的 是 什么 认证 机 构 。 你 信任 这 些 代理 机 构 

吗 ? 当 你 设置 为 不 信任 这 些 认 证 机 构 中 的 一 些 或 全 部 时 ,会 发 生 什么 ? 

使 用 OpenPGP 的 一 个 实现 (如 GnuPG) 来 完成 下 列 练习 。 注 意 ， 不 包括 电子 邮件 一 一 你 只 操作 一 台 

计算 机 上 的 文件 。 

(a) 产生 一 个 公 钥 / 私 钥 对 。 

(b) 用 公 钥 加 密 一 个 文件 ， 以 便 安 全 存储 ， 然 后 用 私 钥 解 密 。 

Cc) 用 你 的 密 钥 对 来 数字 签名 一 个 未 加 密 的 文件 ， 然 后 假设 你 是 别人 ， 用 你 的 公 钥 验证 你 的 签名 。 

(d) 假设 第 一 个 公 钥 / 私 钥 对 属于 Alice， 为 Bob 产生 第 二 个 公 钥 / 私 钥 对 。 扮 演 Alice， 加 密 并 签名 一 
个 发 给 Bob 的 文件 确保 以 Alice 签名 ， 而 不 是 以 Bob) 。 然 后 ， 扮 演 Bob， 验 证 Alice 的 签名 ， 
并 解密 该 文件 。 

考虑 8. 2. 1 节 中 所 描述 的 证 书 分 层 结构 。 根 CA 为 一 个 二 层 CA 签发 了 一 个 证 书 ， 该 二 层 CA 为 Alice 

签发 了 一 个 证 书 。Bob 有 根 CA 的 公 钥 ， 所 以 他 能 够 验证 二 层 CA 的 证 书 。 为 什么 Bob 仍然 可 能 不 相 

信 Alice 是 证 书 中 公 钥 的 拥有 者 ? | 

PuTTY (发 音 为 “putty”) 是 一 个 流行 的 免费 SSH 客户 端 一 一 实现 SSH 连接 的 客户 端 应 用 程序 一 一 

用 于 Unix 和 Windows。 可 以 在 Web 上 访问 它 的 文档 。 

(a) PuTTY 如 何 处 理 对 以 前 没有 连接 过 的 服务 器 的 认证 ? 

Cb) 客户 端 是 如 何 被 服务 器 认证 的 ? 

(c) PuTTY 支持 多 种 密码 。 它 如 何 确定 每 一 个 特定 的 连接 使 用 哪 一 种 密码 ? 

(d) PuTTY 支持 像 DES 这 样 的 密码 ， 这 在 某 些 或 所 有 情况 下 都 被 认为 太 脆 弱 。 为 什么 ? PuTTY 如 
何 判断 哪些 密码 脆弱 ? 它 是 如 何 利用 这 些 信息 的 ? 

(e) 对 于 一 个 给 定 的 连接 ，PuTTY 允许 用 户 指 定 所 传输 数据 的 最 长 时 间 和 最 大 传输 数据 量 ， 然 后 
PuTTY 开始 建立 一 个 新 的 会 话 密 锅 ， 这 个 过 程 在 文档 中 称 为 密 钥 交换 (key exchange) 1% 4A 
重 发 (rekeying) 。 这 个 特性 的 目的 是 什么 ? 

(f) 使 用 PuTTY 密 钥 生成 器 PuTTYgen 为 PuTTY 所 支持 的 一 种 公 钥 密码 产生 一 个 公 钥 / 私 钥 对 。 

假设 你 希望 防火 墙 阻止 所 有 进入 的 Telnet 连接 ， 但 允许 出 去 的 Telnet 连接 。 一 种 方法 是 阻止 到 指定 

的 Telnet 端口 (23) 的 所 有 进入 的 分 组 。 

Ca) 我 们 可 能 也 希望 阻止 到 其 他 端口 的 进入 分 组 ， 但 为 了 不 妨碍 出 去 的 Telnet， 必 须 允 许 哪 些 进 入 的 
TCP 连接 ? 

Cb) 现在 假设 允许 你 的 防火 墙 除 端 口号 之 外 还 可 使 用 TCP 首部 的 Flags 位 。 解 释 怎样 达到 你 所 希望 
的 Telnet 效果 ， 同 时 不 允许 进入 的 TCP 连接 。 

假设 防火 墙 被 配置 为 允许 出 去 的 TCP 连接 ,但 仅 允 许 到 指定 的 端口 的 进入 的 连接 。 现 在 FTP 协议 提 

出 一 个 问题 : 当 一 个 内 部 客户 联系 外 部 服务 器 时 ， 出 去 的 TCP 控制 连接 可 以 正常 打开 ,但 TCP 数据 

连接 传统 上 是 进入 的 。 se 





we ~ NY 


20. 


Ali. 
22. 


Pe Ke 3 369 


(a) 查找 FTP 协议 ,例如 在 RFC 959 中 查找 。 清 楚 PORT 命令 如 何 工 作 。 讨 论 如 何 写 客户 端 才 能 限 
制 防火 增多 许 访问 的 端口 的 数量 。 这 种 端口 的 数量 可 以 限制 为 1 吗 ? 

(b) FTP PASV 命令 如 何 用 于 解决 防火 墙 问题 ? 

假设 过 滤 路 由 器 的 设置 如 图 8-21 所 示 ; 主 防火 墙 是 R1。 解 释 如 何 配 置 R1 和 R2， 使 外 界 能 远程 登录 

到 网 络 2， 但 不 能 登录 到 网 络 1 上 的 主机 。 为 了 避免 “路 过 ” 阁 入 网 络 1， 也 不 许 从 网 络 2 远程 登录 

到 网 络 1。 


外 部 世界 








图 8-21 习题 20 图 


为 什么 因特网 服务 提供 商 可 能 想 阻止 某 些 外 出 通信 和 量 ? | 

据说 IPsec 不 一 定 能 与 网 络 地 址 转换 (Network Address Translation, NAT) (RFC 1631) 一 起 工作 。 

然而 ，IPsec 可 不 可 以 与 NAT 一 起 工作 取决 于 我 们 使 用 IPsec 和 NAT 的 哪个 模式 。 假 设 我 们 使 用 真 

正 的 NAT， 只 转换 IP 地 址 (不 转换 端口 )。IPsec 和 NAT 能 在 下 列 各 种 情况 下 工作 吗 ? 解释 为 

IZ « | 

(a) IPsec 使 用 ESP 传输 模式 。 

(b) IPsec 使 用 ESP 隧道 模式 。 

Cc) 如 果 我 们 使 用 端口 地 址 转换 (Port Address Translation, PAT) 会 怎样 ? PAT th RA NAT 中 的 
网 络 地 址 /端口 转换 (Network Address/Port Translation, NAPT), ， 其 中 除了 对 IP 地 址 进行 转换 
外 ， 还 要 对 端口 号 进行 转换 ， 以 便 在 专用 网 络 外 部 共享 一 个 下 地址， 
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现在 不 是 结束 ， 甚 至 不 是 结束 的 开始 ， 但 可 能 是 开始 的 结 来。 
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本 书 开始 谈论 了 人 们 想 在 计算 机 网 络 上 运行 应 用 程序 ， 从 Web 浏览 器 到 视频 会 议 工 
具 ， 可 谓 包罗 万 象 。 在 中 间 的 各 章 ， 我 们 循序 渐进 地 展开 了 构建 这 些 应 用 所 需 的 网 络 体系 
结构 。 我 们 现在 循环 回 到 原点 ， 返 回 到 网 络 应 用 。 这 些 应 用 可 部 分 地 看 作 是 网 络 协议 CM 
它们 与 其 他 计算 机 上 的 对 等 实体 交换 消息 的 角度 来 看 ) ， 部 分 看 作 是 传统 应 用 程序 NE 
们 与 窗口 系统 、 文 件 系 统 以 及 最 终 和 用 户 之 间 相互 作用 的 角度 来 看 ) 。 本 章 探讨 现今 一 些 
最 流行 的 网 络 应 用 。 

考察 应 用 能 够 使 我 们 理解 在 整 本 书 中 一 直 强 调 的 系统 方法 (system approach), Alt, 
构建 高 效 联网 应 用 的 最 好 方法 是 理解 网 络 能 够 提供 的 构建 模块 以 及 这 些 模块 是 如 何 互 相交 
互 的 。 例 如 ， 一 个 特定 的 网 络 应 用 可 能 需要 利用 可 靠 的 传输 协议 、 认 证 和 保密 机 制 以 及 底 
层 网 络 的 资源 分 配 能 力 。 通 常 在 应 用 开发 者 知道 如 何 充分 利用 这 些 工具 时 (也 有 大 量 的 没 
有 很 好 地 利用 可 用 网 络 能 力 的 反面 应 用 实例 )， 应 用 才 工 作 得 最 好 。 应 用 一 般 也 需要 它们 
自己 的 协议 ， 在 很 多 情况 下 使 用 我 们 在 研究 低层 协议 时 已 经 看 到 的 同样 的 原则 。 因 此 ， 本 章 
我 们 关注 如 何 将 已 经 描述 的 思想 和 技术 组 合 在 一 起 来 构建 高 效 联网 应 用 。 换 句 话 说 ， 如 果 你 
想象 自己 编写 一 个 网 络 应 用 ， 那 么 根据 定义 你 就 成 为 一 个 协议 设计 者 (和 实现 者 )。 

我 们 将 研究 各 种 熟悉 和 不 熟悉 的 网 络 应 用 ， 和 包括 交换 电子 邮件 、Web 冲浪 、 跨 业务 整 
合 应 用 、 管 理 网 络 元 素 的 集合 、 像 vic 和 vat 那样 的 多 媒体 应 用 ， 以 及 新 兴 的 对 等 网 和 内 
容 分 发 网 络 。 这 些 罗 列 虽 显 粗略 ， 但 它 举 例 说 明了 设计 和 构建 应 用 的 要 领 。 应 用 需要 在 网 
络 中 或 主机 协议 栈 中 的 其 他 层 选择 适当 的 组 件 ， 然 后 增强 那些 低层 服务 以 提供 应 用 所 需要 
的 精确 的 通信 服务 。 


9.1 传统 应 用 


我 们 以 最 流行 应 用 中 的 两 个 例子 ÆR (Word Wide Web) 和 电子 邮件 ) 开始 对 应 
用 的 讨论 。 广 义 地 讲 ， 这 两 个 应 用 都 使 用 请 求 /响应 模式 一 一 用 户 向 服务 器 发 出 请 求 ， 服 
务 器 随 之 响应 。 我 们 称 它们 为 传统 应 用 ， 因 为 它们 代表 着 自从 早期 计算 机 网 络 时 代 就 已 存 
在 的 应 用 种 类 。( 虽 然 Web 比 电子 邮件 新 很 多 ， 但 其 基础 是 早期 的 文件 传输 .) 与 之 对 照 ， 
后 面 的 章节 将 讨论 最 近 才 变 得 可 行 的 一 类 应 用 : 流 应 用 ( 即 像 视频 和 音频 之 类 的 多 媒体 应 
用 ) 和 各 种 基于 覆盖 的 应 用 。 注意， 这 些 分 类 之 间 的 界限 有 点 模糊 ， 因 为 你 当然 可 以 通 
过 Web 访问 流 媒体 数据 ， 但 现在 我 们 把 重点 放 在 Web 的 一 般 用 法 ， 即 请 求 网 页 、 图 
Hee.) 

在 详细 讨论 每 个 应 用 之 前 ， 我 们 需要 清楚 三 个 要 点 。 第 一 点 非常 重要 ， 即 区 分 应 用 程 


问题 : 应 用 需要 自己 藤 








Je (program) 与 应 用 协议 (protocol)。 例 如 ， 超 文本 传输 协议 (HyperText Transport 
Protocal，HTTP) 是 一 个 用 于 从 远程 服务 器 上 获取 网 页 的 应 用 协议 。 有 许多 不 同 的 应 用 
程序 〈 如 Internet Explorer, Netscape, Firefox 和 Safari 那样 的 Web 客户 端 ) 提供 给 用 户 
不 同 的 外 观 和 感 党 ， 但 是 它们 都 使 用 同样 的 HTTP 协议 在 因特网 上 与 Web 服务 器 通信 。 
当然 ， 事 实 上 该 协议 已 公开 并 已 成 为 标准 ， 人 允许 很 多 不 同 公司 和 个 人 开发 的 应 用 程序 与 所 
有 Web Rah (有 很 多 变种 ) 实现 互 操作 。 

本 顾 着 重 于 两 个 使 用 非常 广泛 并 且 已 成 为 标准 的 应 用 协议 ; 

。 SMTP: 简单 邮件 传输 协议 (Simple Mail Transfer Protocol) ， 用 于 交换 电子 邮件 。 

。 HTTP， 超 文本 传输 协议 (HyperText Transport Protocol), HF Web 浏览 器 和 

Web 服务 需 之 间 的 通信 。 | 

我 们 还 会 研究 个 人 应 用 协议 是 如 何在 Web 服务 (Web Service) 框架 中 定义 的 。 

第 二 点 ， 由 于 在 这 一 节 中 描述 的 所 有 应 用 协议 都 遵循 相同 的 请 求 /响应 通信 模式 ， 所 
以 我 们 期 望 它 们 都 建立 在 RPC 传输 协议 之 上 。 然 而 并 非 如 此 ， 它 们 全 都 实现 在 TCP 之 
上 。 实 际 上 ， 每 个 协议 是 在 一 个 已 有 的 可 靠 传输 协议 之 上 重新 改造 一 个 简单 的 类 似 RPC 
的 机 制 。 我 们 说 “简单 ”， 是 因为 每 个 协议 都 没有 设计 成 支持 5. 3 节 中 讨论 的 任意 远程 过 
程 调用 ， 而 是 设计 为 发 送 和 响应 一 个 特定 的 请 求 消息 集合 。 

最 后 ， 我 们 发 现 很 多 应 用 层 协议 ,包括 HTTP 和 SMTP， 都 有 一 个 配套 协议 来 说 明 
能 交换 的 数据 格式 。 这 是 这 些 协议 相对 简单 的 一 个 原因 大 部 分 复杂 的 事情 在 这 个 配套 文 
档 中 管理 。 例 如 ，SMTP 是 一 个 交换 电子 邮件 消息 的 协议 ,但 RFC 822 和 多 功能 因特网 
邮件 扩展 (Multipurpose Internet Mail Extensions, MIME) 定义 邮件 消息 的 格式 。 类 似 
He, HTTP 是 获取 Web 页 面 的 协议 ， 但 超 文本 标记 语言 (HyperText Markup Language, 
HTML) 是 一 个 配套 规范 ， 它 定义 这 些 网 页 的 格式 。 


9.1.1 电子 邮件 (SMTP, MIME, IMAP) 


电子 邮件 是 最 时 的 网 络 应 用 之 一 。 毕 竞 ， 在 你 刚 获准 在 一 条 跨国 链 路 上 运行 时 ， 有 什 
么 比 希 望 向 链 路 男 一 端的 用 户 发 送 一 条 消息 更 自然 的 呢 ? 令 人 惊讶 的 是 ，ARPANET 的 
先驱 并 没有 料 到 在 网 络 建成 后 〈 那 时 ， 远 程 访 问 计 算 机 资源 是 主要 的 设计 目标 )， 电 子 邮 
件 会 成 为 一 个 关键 应 用 ,但 是 电子 邮件 变 成 了 很 有 用 的 应 用 并 且 一 直 非 党 流行 

如 前 所 述 ， 有 两 点 很 重要 : 区 分 底层 的 消息 传输 协议 (如 SMTP 或 IMAP) SAP 
接口 〈 即 邮件 阅读 器 ) ，@ 区 分 这 个 传输 协议 (SMTP) 与 定义 交换 消息 格式 的 配套 协议 
CRFC 822 和 MIME). 。 我 们 将 从 考查 消息 格式 开始 。 

1. 消息 格式 

RFC 822 将 消息 定义 为 两 个 部 分 : 首部 Cheader) 和 主体 (body)。 两 部 分 都 用 
ASCI 文本 来 表述 。 最 初 ， 消 息 主体 被 设想 为 简单 的 文本 。 现 在 情况 仍然 如 此 ， 尽 管 RFC 
822 A MIME 扩充 以 允许 主体 文 持 所 有 种 类 的 数据 。 这 些 数 据 仍 用 ASCI 文本 表示 ， 但 
因为 它 可 能 是 已 编码 的 版 本 (如 JPEG 图 像 ) ， 所 以 对 用 户 来 说 不 一 定 是 可 读 的 。 稍 后 将 
更 多 地 提 到 MIME。 

消息 首部 是 一 系列 以 〈CRLE 终止 的 行 。((CCRLF》 代表 回 车 十 换行 ， 是 一 对 ASCII 
nla, WRAP MATIN.) 首部 与 主体 之 间 用 一 个 空 行 分 隔 。 每 个 首部 行 包 
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括 了 由 冒号 分 隔 的 类 型 和 值 。 许 多 首部 行 是 用 户 所 熟悉 的 ， 因 为 当 他 们 写 电 子 邮件 消息 时 
要 求 填 写 这 些 行 。 例 如 ，To: 首部 用 来 识别 消息 的 接收 者 ,而 Subject: 首 部 用 来 说 明 这 个 
消息 的 目的 。 其 他 的 首部 由 低层 的 邮件 递送 系统 填写 。 例 如 Date: (消息 传送 时 间 )、 
From: (发 送 消息 的 用 户 ) 和 Received: (处 理 这 个 消息 的 每 个 邮件 服务 器 ) 。 当 然 ， 还 有 许 
多 其 他 的 首部 行 ， 感 兴趣 的 用 户 可 参考 RFC 822, 

RFC 822 在 1993 年 被 扩充 〈 此 后 又 多 次 更 新 )， 以 便 允 许 邮 件 消 息 携带 许多 不 同 
的 数据 类 型 ， 音 频 、 视 频 、 图 像 、PDF 文档 等 。MIME 包括 三 个 基本 部 分 。 第 一 部 分 
是 一 个 首部 行 的 集合 ， 它 扩充 了 由 RFC 822 定义 的 原始 集合 。 这 些 首部 行 以 各 种 方 
式 描 述 了 放 到 主体 中 的 数据 。 它 们 包括 MIME-Version; (正在 使 用 的 MIME 版 本 )， 
Content-Description; (关于 消息 中 内 容 的 可 读 性 描述 ， 类 似 于 Subject: 行 )，Content- 
Type: (消息 中 包含 的 数据 类 型 ) 和 Content-Transfer-Encoding: (主体 中 的 数据 是 如 
何 编码 的 ) 。 

第 二 部 分 是 一 组 内 容 类 型 (和 子 类 型 ) 的 定义 。 例 如 ，MIME 定义 两 种 不 同 的 静态 图 
像 类 型 ， 表 示 为 image/gif 和 image/jpeg， 每 种 表示 的 含义 都 显而易见 。 作 为 另 一 个 例子 ， 
text/plain 表示 简单 文本 ， 你 可 能 会 一 种 822 式 消 息 中 找到 它 ， 而 text/richtext 表示 消息 
包含 “标记 ”文本 〈 如 使 用 特殊 的 字体 、 和 斜体 等 的 文本 )。 作 为 第 三 个 例子 ，MIME 定义 
一 个 application 类 型 ， 其 子 类 型 对 应 不 同 应 用 程序 的 输出 〈 如 application/postscript 和 
“application/msword), 

MIME 也 定义 了 一 个 multipart 类 型 ， 说 明 如 何 构 造 一 个 带 有 多 种 数据 类 型 的 消息 。 
这 就 像 编 程 语言 定义 基本 类 型 (如 整数 和 浮 点 数 ) 和 组 合 类 型 (如 结构 和 数组 )。 一 种 可 
能 的 multipart 子 类 型 是 mixed， 它 说 明 消 息 包含 一 组 指定 顺序 的 独立 数据 块 。 每 一 块 有 自 
号 描述 本 块 类 型 的 首部 行 。 

第 三 部 分 是 编码 各 种 类 型 数据 的 方法 ， 以 便 使 数据 可 以 在 一 个 ASCII 电子 邮件 消息 中 
传递 。 问 题 是 ， 对 于 一 些 数据 类 型 (如 JPEG 图 像 )， 在 图 像 中 任何 给 定 的 8 比特 字 节 都 
可 能 包含 256 个 不 同 值 中 的 一 个 ， 而 只 有 这 些 值 的 一 个 子 集 是 有 效 的 ASCII 字符 。 邮 件 
消息 中 仅 包 含 ASCI 是 很 重要 的 ， 因 为 它们 可 能 通过 一 系列 中 间 系 统 〈 就 像 下 面 将 要 摘 
述 的 网 关 )。 中 间 系 统 假 设 所 有 邮件 都 是 ASCI 字符 ， 如 果 其 中 包含 非 ASCI 字符 将 破 
坏 该 消息 。 为 解决 这 个 问题 ，MIME 使 用 了 一 种 简单 地 将 二 进 制 数 编码 到 ASCI 字符 集 
中 的 方法 。 这 个 编码 方法 称 为 base64。 其 思路 是 将 原始 二 进 制 数据 的 每 3 个 字 节 映射 到 
4 个 ASCI 字 符 。 具 体 方法 是 将 二 进 制 数 以 24 比特 为 单位 分 组 ， 并 将 每 个 分 组 分 成 4 个 
6 比特 的 块 。 每 6 比特 映射 成 64 个 有 效 的 ASCII 字符 之 一 。 例 如 ，0 映射 到 A，1 映射 
到 B 等 。 如 果 你 看 到 采用 base64 方案 编码 的 消息 ， 你 将 注意 到 仅 有 52 个 大 小 写字 母 、 
10 个 0~9 的 数字 及 特殊 字符 “十 ”和 “/”。 这 些 正 是 ASCII 字符 集中 最 前 面 的 64 
个 值 





为 一 方面 ， 为 了 让 那些 坚持 使 用 纯 文 本 邮件 的 用 户 阅 读 邮 件 时 尽 可 能 不 费力 气 ， 一 个 
由 第 规 纯 文本 组 成 的 MIME 消息 只 能 使 用 7 比特 ASCI 编码 。 对 大 多 数 ASCII 数据 还 有 
其 他 可 读 的 编码 。 | 

综 上 所 述 ， 一 条 包含 一 些 普通 文本 、 一 幅 JPEG 图 像 和 一 个 PostScript 文件 的 消息 ， 
看 上 去 如 下 所 示 | 
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MIME-Version: 1.0 

Content-Type: multipart/mixed; 
boundary="-------417CA6E2DE4ABCAFBC5， 
From: Alice Smith <Alice@cisco.com> 
To: Bob@cs.Princeton.edu 

Subject: promised material 

Date: Mon, 07 Sep 1998 19:45:19 -0400 


Se Ste phe Hane 417CA6E2DE4ABCAFBC5 
Content-Type: text/plain; charset=us-ascii 
Content-Transfer-Encoding: 7bit 


Bob, 
Here's the jpeg image and draft report I promised. 
--Alice 


BOR a A17CABE2DE4ABCAFBC5 
Content-Type: image/jpeg 
Content-Transfer-Encoding: base64 
... unreadable encoding of a jpeg figure 
SD 417CAG6E2DE4ABCAFBCS 
Content-Type: application/postscript; name="draft.ps" 
Content-Transfer-Encoding: /7bit 
. readable encoding of a PostScript document 


在 这 个 例子 中 ， 消 息 首 部 中 的 Content-Type 行 指 出 这 个 消息 包含 不 同 的 块 ， 每 一 块 
用 一 个 并 不 出 现在 数据 本 身 中 的 字符 串 标 明 。 并 且 每 个 块 拥有 它 自己 的 Content-Type 和 
Content-Transfer-Encoding 行 。 

2. 消息 传输 

很 多 年 来 ， 从 主机 到 主机 传递 的 大 部 分 电子 邮件 都 只 使 用 SMTP. YR SMTP 仍然 
扮演 着 核心 角色 ， 但 现在 它 只 是 多 个 协议 中 的 一 种 ， 因特网 消息 访问 协议 (Internet Mes- 
sage Access Protocol, IMAP) 和 邮局 协议 (Post Office Protocol, POP) 成 为 另外 两 个 重 
要 的 读 取 邮件 消息 的 协议 。 我 们 的 讨论 从 SMTP 开始 ， 后 面 会 转向 IMAP, 

为 了 把 SMTP 放 在 正确 的 环境 中 ， 我 们 需要 标识 关键 的 角色 。 首 先 ， 当 用 户 编 写 、 
存档 、 检 索 和 阅读 邮件 时 ， 他 们 要 与 邮件 阅读 器 (mail reader) 交互 。 有 无 数 可 用 的 邮件 
阅读 器 ， 就 像 有 很 多 可 选择 的 Web 浏览 器 一 样 。 在 因特网 的 早期 ， 用 户 一 般 登 录 到 其 邮 
箱 (mailbox) 所 在 的 主机 ， 他 们 所 调用 的 邮件 阅读 器 是 一 个 从 文件 系统 中 读 取 消息 的 本 
地 应 用 程序 。 当 然 ， 现 在 用 户 通过 笔记 本 电脑 或 智能 手机 远程 访问 他 们 的 邮箱 ， 而 并 不 是 
先 登录 到 存储 邮件 的 主机 (邮件 服务 器 )。 从 邮件 服务 器 远程 下 载 邮件 到 用 户 设备 时 使 用 
男 一 个 邮件 传输 协议 ， 如 POP 或 IMAP。 

第 二 ， 在 每 台 承 载 邮 箱 的 主机 上 运行 一 个 邮件 后 台 处 理 程序 (mail daemon) (或 进 
程 )。 你 可 以 想象 这 个 处 理 程序 扮演 着 邮局 的 角色 ， 也 称 为 消息 传送 代理 (message trans- 
fer agent, MTA); 邮件 阅读 器 将 它们 想 发 送 给 其 他 用 户 的 消息 交 给 邮件 后 台 处 理 程序 ， 
这 个 邮件 后 台 处 理 程序 使 用 运行 在 TCP 之 上 的 SMTP 传输 消息 到 另 一 台 计 算 机 上 的 邮件 
后 台 处 理 程序 ， 并且 邮件 后 台 处 理 程序 将 收 到 的 消息 放 入 用 户 的 邮箱 中 (那里 ， 用 户 的 邮 
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件 阅 读 器 随后 能 发 现 消息 ) 。 由 于 SMTP 是 一 种 任何 人 都 能 实现 的 协议 ， 因 此 从 理论 上 讲 
可 以 有 许多 不 同 的 邮件 后 台 处 理 程序 的 实现 。 然 而 ， 事 实 是 只 有 少数 流行 的 实现 ， 其 中 来 
H Berkeley UNIX 和 postfix 的 老 的 sendmail 程序 是 传播 最 广 的 。 

虽然 发 送 方 计算 机 上 的 sendmail 程序 建立 一 个 到 接收 方 计算 机 上 的 sendmail 程序 的 
SMTP/TCP 连接 的 确 是 可 能 的 ， 但 在 很 多 情况 下 邮件 要 穿越 从 发 送 方 主机 到 接收 方 主机 
的 路 径 上 的 一 个 或 多 个 邮件 网 关 (mail gateway)。 像 端 主机 一 样 ， 这 些 网 关 也 运行 一 个 
sendmail 进程 。 这 些 中 间 节 点 称 作 网 关 并 非 偶 然 ， 因 为 它们 的 工作 就 是 存储 和 转发 邮件 消 
息 ， 很 像 “IP 网 关 ”( 就 是 我 们 所 说 的 路 由 器 〉 存储 和 转发 IP 数据 报 。 它 们 仅 有 的 差别 是 
邮件 网 关 通 常 把 消息 缓存 在 磁盘 上 并 且 在 几 天 之 内 不 断 尝试 再 传送 到 下 一 台 计 算 机 上 ， 而 
IP 路 由 器 把 数据 报 缓存 在 内 存 中 并 且 只 在 转瞬 之 间 再 尝试 传送 它们 。 图 9-1 说 明 一 个 从 发 
送 方 到 接收 方 的 两 跳 的 路 径 。 





~ SMTP/TCP | | SMTP/TCP 
图 9-1 一 系列 邮件 网 关 存 储 和 转发 电子 邮件 消息 


你 可 能 会 问 ， 邮 件 网 关 是 必需 的 吗 ? 为 什么 发 送 方 主机 不 能 直接 将 消息 发 送 到 接收 方 
主机 ?一 个 原因 是 接收 方 不 想 把 读 邮 件 的 特定 主机 包含 在 他 的 地 址 中 。 另 一 个 原因 是 ， 在 
大 型 组 织 中 ， 邮 箱 服务 受到 许多 不 同 计算 机 的 控制 。 例 如 ， 递 交 给 Bob@cs. princeton. edu 
的 邮件 ， 首 先 被 送 到 普林斯顿 大 学 计算 机 科学 系 的 一 个 邮件 网 关上 ( 即 名 为 
cs. princeton. edu 的 主机 ) ， 然 后 被 转发 〈 这 涉及 第 二 个 连接 ) 到 Bob 今天 用 于 阅读 邮件 的 
那 台 计算 机 上 。 转 发 网 关 维 护 一 个 数据 库 ， 这 个 数据 库 将 用 户 映 射 到 他 们 当前 想 要 接收 邮 
件 的 计算 机 上 ， 发 送 方 不 必 知 道 这 台 计 算 机 的 名 字 (消息 首部 行 中 的 Received: 将 帮助 你 ， 
跟踪 一 个 指定 消息 经 过 的 邮件 网 关 ) 。 另 一 个 原因 是 接收 方 计算 机 可 能 不 总 是 开机 的 ， 在 
这 种 情况 下 邮件 网 关 将 保留 消息 直到 它 能 被 转发 出 去 。 

在 每 对 主机 之 间 使 用 一 条 独立 的 SMTP 连接 ， 以 使 消息 逐步 接近 接收 方 ， 与 路 径 上 
有 多 少 个 邮件 网 关 无 关 。 每 个 SMTP 会 话 涉及 在 两 个 邮件 后 台 处 理 程序 之 间 的 对 话 ， 一 
个 充当 客户 而 另 一 个 充当 服务 器 。 在 一 次 会 话 期 间 两 台 主 机 可 能 会 传送 多 条 消息 。 因 为 
RFC 822 使 用 ASCII 作为 基本 表达 形式 来 定义 消息 ， 所 以 得 知 SMTP 也 是 基于 ASCI 的 
就 不 足 为 奇 了 ， 这 意味 人 们 假扮 SMTP 客户 程序 是 可 能 的 。 

理解 SMTP 的 最 好 方法 是 通过 一 个 简单 的 例子 。 下 面 是 在 发 送 主机 cs. princeton. edu 
和 接收 主机 cisco. com 之 间 的 一 次 交换 。 在 此 情况 下 ， 普 林 斯 顿 大 学 的 用 户 Bob 尝试 发 送 
一 个 邮件 给 Cisco 公司 的 Alice 和 Tom, H cs. princeton. edu 发 出 的 行 用 黑体 显示 ， 而 由 
cisco. com 发 出 的 行 用 斜体 显示 ， 添 加 额外 的 空白 行 是 为 了 使 对 话 更 易 读 。 


HELO cs.princeton.edu 
290 Hello daemon@mail.cs.princeton.edu [£128.12.169.24] 


MATL FROM:<Bob@cs.princeton.edu> 
250 OK 


RCPT T0O:<Alice@cisco.com> 
250 OK 


RCPT T0:<Tom@cisco.com> 
550 No such user here 


DATA 

354 Start mail input; end with <CRLF>.<CRLF> 
Blah-blan blah... 

ii eles CLC etC: 

K<GCRLED.<SCRLE2 


¿50 OK 


QUIT 


Dingi am mop ya pe oea pa he o i 
EEL utilising CONNecrran 


正如 你 能 看 到 的 ，SMTP 在 客户 和 服务 器 之 间 包 含 一 系列 交换 。 在 每 一 次 交换 中 客户 
提交 一 个 命令 (如 HELO, MAIL, RCPT, DATA, QUIT), ， 服 务 器 以 一 个 代码 来 响应 
(如 250、550、354、221) 。 服 务 器 也 返回 对 代码 的 可 读 性 解释 〈 如 No such user here), 
在 这 个 特例 中 ， 客 户 首先 用 HELO 命令 回 服 务 器 标识 自己 。 它 把 自己 的 域名 作为 参数 ， 
服务 器 验证 这 个 域名 是 否 对 应 于 TCP 连接 所 使 用 的 IP 地 址 。 你 将 注意 到 服务 器 会 向 客户 
声明 该 IP 地 址 。 然 后 客户 询问 服务 器 是 否 愿 为 两 个 不 同 的 用 户 接收 邮件 ， 服 务 器 通过 对 
一 个 说 “YES” 而 对 另 一 个 说 “NO” 来 响应 。 然 后 客户 发 送 消息 ， 并 使 用 只 有 一 个 圆 点 
(“.2) 的 行 作为 消息 的 结束 。 最 后 ， 客 户 终止 连接 。 

当然 还 有 很 多 其 他 的 命令 和 返回 代码 。 人 例如， 服务 器 可 用 代码 251 来 啊 应 客户 的 
RCPT 命令 ， 它 表明 用 户 在 该 主机 上 没有 邮箱 ， 但 服务 器 允诺 将 该 消息 转发 到 另 一 个 邮件 
后 台 处 理 程序 。 换 句 话 说， 主机 行使 邮件 网 关 的 职能 。 另 一 例子 ， 客 户 能 发 出 VRFY 操 
作 命 令 来 验证 用 户 的 电子 邮件 地 址 ， 但 实际 却 没 给 该 用 户 发 送 消 息 。 

其 他 应 注意 的 是 MAIL 和 RCPT 操作 的 参数 。 例如， 分别 有 FROM: <Bob@cs. 
princeton. edu>A TO: <Alice@cisco. com>, HG LARE 822 的 首部 字段 ， 而 且 在 
某 种 意义 上 也 就 是 如 此 。 实 际 情况 是 邮件 后 人 台 处 理 程序 解析 消息 ， 以 抽取 运行 SMTP 所 
需 的 信息 。 抽 取 的 信息 构成 消息 的 信封 (envelope)。SMTP 客户 使 用 该 信封 作为 与 
SMTP 服务 器 交换 的 参数 。 从 历史 上 看 ，sendmail 变 得 如 此 流行 的 原因 是 没有 人 想 重 新 实 
现 消息 解析 功能 。 虽 然 今天 的 电子 邮件 地 址 看 上 去 非常 好 用 (如 Bob@cs. princeton. edu), 
但 情况 并 不 总 是 如 此 。 在 因特网 流行 之 前 ， 一 个 诸如 格式 user% host@site! neighbor 的 
电子 邮件 地 址 并 不 罕见 。 

3. 邮件 阅读 器 

最 后 一 步 是 用 户 从 邮箱 中 实际 接收 消息 ， 阅 读 、 回 复 并 可 能 保存 一 份 副 本 以 备 将 来 参 
考 。 用 户 通过 与 邮件 阅读 器 的 交互 来 完成 这 些 行为 。 如 前 所 述 ， 这 个 阅读 需 最 初 只 是 一 个 
与 用 户 邮 箱 运 行 在 同一 台 计 算 机 上 的 程序 ， 在 这 种 情况 下 ， 它 只 是 简单 地 读 写 实现 邮箱 的 
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SCPE. REFERERER RT LL. ME, FA ERATEN AE V Tl gE 
但 要 使 用 其 他 协议 ， 如 POP 或 IMAP。 讨论 用 户 邮 件 阅读 器 的 接口 形式 超出 本 书 的 范围 ， 
但 讨论 访问 协议 一 定 在 我 们 的 范围 之 内 。 我 们 特别 考虑 IMAP. 




















IMAP 在 许多 方面 类 似 于 SMTP, È Pere ener ten eee er 
是 一 个 运行 在 TCP 之 上 的 客户 端 /服务 器 | 连接 建立 | 
协议 ， 这 里 客户 端 (运行 在 用 户 的 桌面 计 eh ee 
算 机 上 ) RW (CRLF) 结束 的 ASCII X | 服务 器 问候 | 
本 行 命令 ， 而 由 B 件 服 务 an (IG 行 在 维 护 用 lo 加 G) 
户 邮箱 的 计算 机 上 》 做 出 响应 。 交 互 以 客 


| 
eee 
户 认证 自己 的 身份 开始 ， 并 确定 他 要 访问 | swe | | 
的 邮箱 。 这 可 以 表示 成 如 图 9-2 所 示 的 简单 eo [a | 
状态 转换 图 。 在 这 个 图 中 ，LOGIN、AU- oe 
THENTICATE, SELECT, EXAMINE, 
CLOSE 和 LOGOUT 是 客户 能 发 出 的 命令 
的 例子 ，OK 是 服务 器 的 一 种 可 能 的 响应 。 
其 他 的 常见 命令 包括 FETCH, STORE, 
DELETE 和 EXPUNGE， 其 含义 不 言 而 
喻 。 另 外 的 服务 器 啊 应 包括 NO (客户 没 
有 权利 执行 该 操作 ) 和 BAD (命令 的 格式 
IE 
当 用 户 请 求 FETCH ( 读 取 ) 一 条 消息 | 
时 ， 服 务 器 就 以 MIME 格式 返回 它 ， 然 后 (1) 没有 预 认证 的 连 搂 (OK 问候 ) 
由 邮件 阅读 器 解码 。 除 消息 本 身 之 外 ， (2) 经 过 预 认证 的 连接 (PREAUTH 问 候 ) 
ag (3) 拒绝 连接 (BYE 问 候 ) 
IMAP 也 定义 一 组 消息 属性 (attribute), (4) LOGIN 或 AUTHENTICATE 命 令 成 功 
这 些 局 性 作为 其 他 命令 的 一 部 分 进行 交换 ， (5) SELECTED 
独立 于 传输 消息 本 号。 消息 属性 包括 消息 (7) LOGOUT 命 令 ， 服 务 器 关闭 或 连接 关闭 
大 小 等 信息 ， 更 有 意思 的 是 消息 相关 的 各 
种 标志 (flag)， 如 Seen, Answered, Dele- 
ted 和 Recent。 这 些 标志 用 于 保持 客户 与 服务 器 的 同步 ， 就 是 说 ， 当 用 户 在 邮件 阅读 器 上 
删除 一 条 消息 时 ， 客 户 需 要 向 邮件 服务 器 报告 这 一 事实 。 随 后 ， 如 果 用 户 决 定 清除 所 有 被 
删除 的 消息 ， 客 户 发 出 一 个 EXPUNGE 命令 给 服务 器 ， 服 务 器 便 知道 从 邮箱 中 彻底 删除 
所 有 之 前 被 删除 的 消息 。 | 
最 后 ,注意 当 用 户 回 复 一 条 消息 或 发 送 一 条 新 消息 时 ， 邮 件 阅 读 器 并 不 使 用 IMAP 从 
客户 回 邮 件 服务 人 右 转 发 消息 而 使 用 SMTP。 这 意味 着 用 户 的 邮件 服务 器 实际 上 是 作为 从 桌 
面 到 接收 方 邮 箱 的 传输 路 径 上 的 第 一 个 邮件 网 关 。 





图 9-2 IMAP 的 状态 转换 图 


9.1.2 万 维 网 (HTTP) 

万 维 网 已 经 取得 很 大 的 成 功 并 且 使 得 如 此 多 的 人 都 能 访问 因特网 ， 以 至 于 万 维 网 有 时 
看 起 来 像 是 因特网 的 同义词 。 事 实 上 ， 形 成 Web 的 系统 设计 大 约 从 1989 年 开始 ， 远 远 蜀 
于 因特网 成 为 广泛 部 署 的 系统 的 时 间 。Web 的 最 初 目标 是 找到 组 织 和 抽取 信息 的 方法 ， 借 





hy Fi oll 





用 超 文 本 的 思想 一 一 相互 链接 的 文档 (这 种 思想 至 少 在 20 世纪 60 年 代 就 存在 了 )S 

一 个 有 助 于 理解 Web 的 思路 是 ，Web 是 一 组 相互 协作 的 客户 端 与 服务 器 ， 所 有 成 员 
说 的 是 同一 种 语言 ， HTTP。 大 多 数 人 接触 Web 是 通过 图 形 化 的 客户 程序 或 Web 浏览 器 ， 
例如 Safari, Chrome, Firefox 或 Internet Explorer。 图 9-3 展示 了 使 用 Firefox 浏览 器 显 
示 来 目 普林斯顿 大 学 的 一 页 信息 。 








图 9-3 Firefox Web 浏览 器 


显然 ， 如 果 想 将 信息 组 织 成 由 相互 链接 的 文档 或 对 象 组 成 的 系统 ， 你 需要 从 获取 一 个 
文档 开始 。 因 此 ， 任 何 一 个 Web 浏览 器 都 有 允许 用 户 打开 URL 的 功能 。URL 对 大 多 数 
人 来 说 是 如 此 熟悉 ， 以 至 于 容易 忘记 它们 不 是 一 直 存 在 的 。URL 提供 有 关 Web 上 对 象 位 
置 的 信息 ， 它 们 看 起 来 有 如 下 形式 : 
http://www. cs. princeton. edu/index. html 
如 果 你 打开 这 个 特定 的 URL, RAY Web 浏览 器 将 打开 一 个 到 称 为 www. cs. princeton. edu 
的 计算 机 上 的 Web 服务 器 的 TCP 连接 ， 立 刻 获取 并 显示 名 为 index. html 的 文件 。Web 
上 的 多 数 文 件 包含 图 像 和 文本 ， 有 些 还 有 音频 或 视频 片段 等 。 它 们 也 经 第 包含 指 问 其 他 文 
(FH) URL, m Web 浏览 句 会 通过 某 种 办 法 使 你 能 够 识别 这 些 URL H Be FF BS RD a He FT 
它们 〈 一 般 通 过 高 亮 方 式 或 在 文本 下 加 下 划 线 )。 这 些 肯 人 的 URL 称 为 超 文本 链接 
(hypertext link) 。 当 你 要 求 Web 浏览 器 打 开 这 些 航 入 的 URL 之 一 〈 即 用 鼠标 指 癌 它 并 单 


O 万 维 网 联盟 所 提供 的 Web 简 史 可 追溯 到 1945 年 的 一 篇 描述 缩微 胶片 文档 之 间 链 接 的 文章 。 


击 ) 时 ， 它 将 打开 一 个 新 的 连接 并 取 回 和 显示 一 个 新 文件 。 这 称 为 跟随 链接 (following a 
link) 。 因 此 在 网 络 范围 内 很 容易 从 一 台 计 算 机 跳 到 另 一 台 计 算 机 ， 并 得 到 各 种 类 型 的 信 
息 。 一 旦 你 设法 在 一 个 文档 中 咎 入 一 个 链接 ， 并 允许 用 户 跟随 该 链接 来 得 到 另 一 个 文档 ， 
你 就 有 了 超 文本 系统 的 基础 。 

当 你 选择 查看 一 个 网 页 时 ， 你 的 浏览 器 (客户 端 ) 使 用 运行 在 TCP 之 上 的 HTTP 从 
服务 器 上 获取 网 页 。 像 SMTP 一 样 ，HTTP 是 面向 文本 的 协议 。 本 质 上 ， 每 个 HTTP 消 
息 有 通用 的 格式 | 


START_LINE 《CRLF> 
MESSAGE_HEADER <CRLF> 
x(a b> 

MESSAGE_BODY <CRLF> 


和 从 前 一 样 ，( CRLF) 代表 回 车 十 换行 。 第 一 行 (START_LINE) 指出 这 是 一 个 请 求 消 
息 还 是 一 个 响应 消息 。 实 际 上 ， 它 识别 一 个 要 执行 的 “远程 过 程 ” (在 请 求 消息 的 情况 
下 )， 或 识别 一 个 请 求 的 状态 (status) (在 响应 消息 的 情况 下 )。 下 面 的 若干 行 说 明 一 些 限 
定 请 求 或 响应 的 选项 和 参数 。 可 以 有 零 个 或 多 个 MESSAGE _ HEADER 行 ， 它们 以 一 个 
空白 行 结 束 ， 每 行 看 起 来 都 像 电子 邮件 消息 中 的 首部 行 。HTTP 定义 了 许多 可 能 的 首部 类 
型 ,它们 中 的 一 些 属于 请 求 消息 而 另 一 些 属于 响应 消息 ， 还 有 一 些 属于 消息 主体 中 携带 的 
数据 。 我 们 只 给 出 几 个 有 代表 性 的 例子 而 不 是 给 出 所 有 可 能 的 首部 类 型 。 最 后 ， 在 空白 行 
之 后 是 请 求 的 内 容 (MESSAGE _BODY) ， 请 求 消息 中 的 这 一 部 分 通常 是 空 项 。 

HTTP 为 什么 运行 在 TCP 上 ? 并 非 必 须 如 此 ， 但 TCP 确实 能 很 好 地 匹配 HTTP 的 
需求 ， 即 提供 了 可 靠 传输 ( 谁 希望 得 到 丢失 了 数据 的 网 页 呢 )、 流 量 控制 和 拥塞 控制 。 然 
而 ， 就 像 我 们 将 在 后 面 看 到 的 ， 在 TCP 上 构建 一 个 请 求 /响应 协议 会 引起 一 些 问 题 ， 特 别 
是 如 果 你 忽略 了 应 用 层 协 议 与 传输 层 协议 之 间 交 互 的 微妙 之 处 。 

1. 请 求 消息 

HTTP 请 求 消息 的 首 行 说 明 三 件 事 : 应 完成 的 操作 、 应 完成 操作 所 针对 的 网 页 和 所 用 
的 HTTP 版 本 。 虽 然 HTTP 定义 了 分 
类 广泛 的 可 能 的 请 求 操 作 ， 包 括 人 允许 把 





表 9-1 HTTP 请 求 操作 


, i EN A a E zA 
一 个 网 页 投递 到 服务 器 上 的 写 Cwrite) E 
one ane ~ _ OPTIONS 请 求 关于 可 用 选项 的 信息 
朵 作 ， 但 最 常用 的 两 种 操作 是 GET OE GET 获得 由 URL 标识 的 文档 
取 指 定 的 网 页 ) 和 HEAD (获取 指定 网 HEAD 获得 由 URL 标识 的 文档 的 状态 信息 
页 的 状态 信息 ) 。 前 者 显然 在 浏览 器 想 取 POST 递交 信息 “如 注释 ) 到 服务 器 
回 和 显示 一 个 网 页 时 使 用 。 后 者 用 来 测 UT ee 
CR : DELETE 删除 指定 的 URL 

A/N E A Are VE a 

MARE AE PI Se EOC it GRE EE CONNECT | 由 代理 使 用 


修改 过 。 表 9-1 总 结 了 全 部 操作 。POST 
命令 引起 了 因特网 上 的 很 多 恶作剧 EBRAR., AMERRE, 
例如 ，START LINE 


GET http://www.cs.princeton.edu/index.html 
sae ae alle 


说 明 客 户 想 要 让 主机 WWW. CS. princeton. edu 上 的 服务 器 返回 一 个 名 为 index. html 的 网 


页 。 这 个 特例 使 用 一 个 绝对 的 Cabsolute) URL。 也 有 可 能 使 用 一 个 相对 的 (relative) 标 
识 并 在 MESSAGE-HEADER 行 中 指定 主机 名 ， 比 如， 


GET index.html HTTP/1.1 
Host: www.cs.princeton.edu 


其 中 Host 是 可 能 的 MESSAGE_HEADER 字段 之 一 ， 这 些 字段 中 更 有 趣 的 是 二 Modified- 
Since， 它 给 出 一 种 使 客户 有 条 件 地 请 求 一 个 网 页 的 办 法 ， 即 只 有 在 首部 行 指定 的 时 间 以 
后 有 人 修改 过 该 网 页 时 ， 服 务 器 才 返 回 该 网 页 。 

2. 啊 应 消息 , 

像 请 求 消息 一 样 ， 响 应 消息 也 以 一 个 单一 的 START _LINE 行 作为 开始 。 在 这 种 情况 
下 ， 此 行 说 明 所 使 用 的 HTTP 版 本 ， 三 位 代码 指示 请 求 是 否 成 功 ， 并 有 旦 用 一 个 文本 串 给 
出 这 种 啊 应 的 原因 。 例 如 :; START LINE 

HTTP/1.1 202 Accepted 
指出 服务 需 能 够 满足 要 求 ， 而 

HTTP/1.1 404 Not Found 
指出 因为 网 页 没有 找到 而 不 能 满足 该 请 求 。 啊 应 代码 有 五 种 通用 类 型 ， 代 码 的 第 一 位 指明 
其 类 型 。 表 9-2 总 结 了 五 种 代码 。 
R 9-2 HTTP 的 五 类 结果 代码 














代码 原因 示例 
lxx 接收 请 求 ， 继 续 处 理 
2xx 行为 被 成 功 接收 、 理 解 和 接受 
3xx 为 完成 请 求 所 需 的 进一步 的 行为 
Axx | 客户 错误 | 请 求 语 法 错 或 请 求 不 能 实施 


LR POST 请 求 消息 那些 非 预 期 的 结果 一 样 ， 有 时 人 们 会 惊讶 于 实际 中 如 何 使 用 不 同 
的 响应 消息 。 例 如 ， 通 过 将 请 求 重 定向 到 附近 的 绥 存 ， 请 求 重 定 向 代码 是 302) 成 为 在 
内 容 分 发 网 络 | (Content Distribution Networks, CDN) 中 扮演 重要 角色 的 强大 机 制 IL 
9.4.39), | | 

与 请 求 消息 类 似 ， 啊 应 消息 也 能 包含 一 个 或 多 个 MESSAGE _ HEADER 行 。 这 些 行 
传递 返回 给 客户 的 附加 信息 。 例 如 Location 首部 行 说 明 所 请 求 的 URL 在 另 一 个 位 置 是 可 
用 的 。 因 此 ， 如 果 普 林 斯 顿 大 学 计算 机 科学 系 的 网 页 已 经 从 http://www. cs. prince- 
ton. edu/index. html 移 到 了 http://www. princeton. edu/cs/index. html， 则 原来 地 址 的 服 
务 器 可 以 响应 如 下 ， | 

HTTP/1.1 301 Moved Permanently 

Location: http://www. princeton.edu/cs/index.html 

通常 情况 下 ， 响 应 消息 也 将 携带 请 求 的 页 面 。 这 个 页 面 是 一 HTML 文档 ,但 是 
因为 它 可 以 带 有 非 文本 数据 Ca GIF 图 像 ) ， 所 以 它 使 用 MIME 编码 〈 见 9.1.1 节 )。 
某 些 MESSAGE_HEADER 行 给 出 页 面 内 容 的 属性 ， 包 括 Content-Length (NAH F 
节 数 ) Expires (内 容 失 效 的 时 间 ) 和 Last-Modified (内 容 在 服务 器 上 被 修改 的 最 后 


时 间 )。 | 

3. 统一 资源 标识 符 

HTTP 将 URL 作为 地 址 ， 它 是 统一 资源 标识 符 (Uniform Resource Identifier, URD 
的 一 种 。URI 是 一 个 标识 资源 的 字符 串 ， 资 源 可 以 是 具有 标识 的 文档 、 图 像 或 服务 等 的 任 
何 内 容 。 | 

URI 的 格式 允许 将 多 种 更 专用 的 资源 标识 符 集成 到 标识 符 的 URI 空间 中 。URI 的 第 
一 部 分 是 大 岗 〈scheme) ， 它 命名 表示 特定 种 类 的 资源 的 特定 方法 ， 如 将 mailto 用 于 电子 
邮件 地 址 ， 将 file 用 于 文件 名 。URI 的 第 二 部 分 与 第 一 部 分 用 分 号 隔 开 ,是 特定 于 大 纲 的 
部 分 (scheme-specific part) 。 它 是 符合 第 一 部 分 中 大 纲 的 资源 标识 符 ， 例 如 下 面 的 URI 


mailto:santa@northpole.org 


和 


file:///C:/foo.html 


资源 不 必 可 获取 或 可 访问 。 我们 看 一 个 7.1.3 节 中 的 例子 一 可 扩展 标记 语言 
(XML) 命名 空间 是 由 类 似 URL 的 URL 标识 的 ， 但 严格 地 讲 ， 它 们 并 不 是 定位 符 (loca- 
tor) ， 因 为 它们 并 没有 告诉 你 如 何 定位 任何 内 容 ， 它 们 只 是 为 那个 命名 空间 提供 一 个 全 球 
唯一 的 标识 符 ， 并 不 要 求 作为 XML 文档 的 目标 命名 空间 的 URI 获取 任何 内 容 。 我 们 将 在 
9.2.1 节 看 到 另 一 个 非 URL 的 URI KØ. 

4. TCP 连接 | 

HTTP 的 最 初版 本 (1. 0) 分别 为 每 一 个 从 服务 器 接 获 取 数 据 项 建立 一 个 单独 的 TCP 
连接 。 不 难看 到 这 是 一 种 多 么 低 效 的 机 
制 ， 即 使 客户 想 做 的 只 是 检验 是 否 有 一 
个 网 页 的 最 新 拷贝 ， 也 不 得 不 在 客户 端 
和 服务 器 之 间 交 换 建立 连接 和 拆除 连接 
的 消息 。 所 以 ， 接 收 一 个 包括 一 些 文本 
和 12 个 图 标 或 其 他 小 图 像 的 网 页 将 导致 





客户 端 | 服务 器 





OR o | ] 服务 器 处 
立 和 关闭 13 个 单独 的 TCP 连接 ,。 图 | HTTP 响 应 理 请 求 
9-4 显示 了 获取 只 有 一 个 岩 和 对象 的 页 面 - 
HEES, MARR TCP 消息 ， 而 细 ZPA ||] a 

线 表示 HTTP 请 求 和 响应 。 (有 些 TCP m sw 

a a = ee 

fil.) 你 能 看 到 ， 两 个 往返 时 间 用 于 建立 | SYN+ACK 一 一 
ee. ee — 

取 页 面 和 图 像 。 除 了 延迟 的 影响 ， 服 务 | ~ ] 服务 器 处 
器 上 也 需要 用 于 处 理 额外 TCP 连接 建立 | HTTP 响 应 | ”再 请 求 
和 终止 的 处 理 开 销 。 


为 了 改变 这 种 情况 ，HTTP 版 本 1.1 
引入 了 持久 连接 (persistent connec- 
tion) ， 即 客户 端 和 服务 器 能 够 在 同一 个 plore Taare aie 


TCP 连接 上 交换 多 个 请 求 / 响 应 消息 。 持 和 久 连 接 许多 优点 。 第 一 ， 它 明显 地 消除 了 连接 建 
立 的 开销 ， 从 而 降低 因 额 外 的 TCP 分 组 所 
引起 的 服务 器 负载 和 网 络 负载 以 及 用 户 可 察 
觉 的 延迟 。 第 二 ， 由 于 用 思 可 在 二 个 CP 





ro 
一 
Te 


连接 上 传送 多 个 请 求 消息 ， 所 以 TCP 拥塞 HTTPD 


窗口 机 制 也 能 更 有 效 地 工作 ， 这 是 因为 它 不 zp 
需要 为 每 个 页 面 经 历 慢 启动 阶段 。 图 9-5 显 ”解析 响应 | 


Yo 





示 了 图 9-4 中 的 事务 在 连接 已 经 打开 GRA rrr N ie 
能 是 由 于 前 面 访问 过 同一 台 服 务 器 ) 的 情况 HTTP 响 应 一 | -处理 请 求 
下 使 用 一 个 持久 连接 ， | a 

然而 ， 持 久 连 接 并 不 是 无 代价 的 ， 问 是 
是 客户 端 和 服务 器 都 不 一 定 知道 一 个 特定 8 0 


TCP 连接 需要 保持 多 长 时 间 。 这 对 于 服务 器 来 说 更 为 关键 ， 它 可 能 被 要 求 为 上 千 个 客户 
保持 打开 的 连接 。 解 决 方案 是 服务 器 必须 设 一 个 时 间 间 隔 ， 并 关闭 那些 在 一 定时 间 内 没有 
收 到 请 求 消息 的 连接 。 另 外 ， 不管 是 客户 端 还 是 服务 器 ， 都 必须 观察 另 一 端 是 否 已 选择 了 
关闭 连接 ， 而 且 它 们 必须 使 用 该 信息 作为 关闭 本 端 连接 的 信号 。 (回忆 一 下 ， 两 端 必须 都 
关闭 了 一 个 TCP 连接 之 后 ，TCP 才 会 完全 终结 .) 对 这 个 问题 的 考虑 增加 了 复杂 性 ， 这 可 
能 是 没有 一 开始 就 使 用 持久 连接 的 原因 ， 但 现在 人 们 普遍 认为 持久 连接 的 优点 比 缺 点 多 。 

5. 缓存 

现在 ， 因 特 网 的 一 个 最 具 活 力 的 研究 〈 和 企业 技术 ) 领域 是 如 何 高 效 地 缓存 Web 网 
页 。 使 用 缓存 有 许多 好 处 。 从 客户 的 角度 看 ， 从 邻近 的 缓存 中 得 到 并 显示 网 页 比 从 世界 的 
另 一 端 获 取 要 快 得 多 。 从 服务 器 的 角度 看 ， 用 缓存 截取 和 满足 请 求 将 降低 服务 器 的 负载 。 

可 在 不 同 地 方 实现 缓存 。 人 例如， 用户 浏 览 器 可 缓存 近来 访问 过 的 页 面 ， 如 果 用 户 再 
次 访问 该 网 页 ， 则 简单 地 显示 缓存 的 揽 贝 。 另 一 个 例子 是 网 站 可 支持 一 种 单一 网 站 范围 
的 缓存 ， 它 允许 用 户 利 用 其 他 用 户 以 前 下 载 的 网 页 。ISP 靠近 因特网 的 中 间 ， 也 能 缓存 
页 面 。 注 意 ， 在 第 二 种 情况 下 ， 网 站 内 的 用 户 很 可 能 知道 哪 台 计算 机 正在 为 网 站 缓存 网 
页 ， 他 们 可 配置 自己 的 浏览 器 直接 连接 到 缓存 主机 。 这 种 节点 有 时 称 为 代理 Cproxy). 
相反 ， 连 接 到 ISP 的 网 站 可 能 并 不 知道 ISP 正在 缓存 网 页 ， 这 可 能 发 生 在 来 自 各 个 网 站 
的 HTTP 请 求 恰好 通过 一 个 公共 ISP 路 由 器 的 情况 下 。 路 由 器 快速 查看 流 经 的 请 求 消息 ， 
并 注意 所 请 求 网 页 的 URL。 如 果 网 页 已 在 缓存 中 ， 则 返回 它 ; 如 果 不 在 ， 将 请 求 转发 到 
服务 稻 ， 并 监视 反方 向 而 至 的 响应 。 当 它 到 来 时 ， 路 由 顺 将 保存 它 的 捞 贝 以 希望 能 满足 以 
Ja TIRE 。 

无 论 将 网 页 缓存 在 哪里 ， 重 要 的 是 缓存 网 页 的 能 力 ， 因 此 HTTP 的 设计 目标 之 一 是 
”使 缓存 更 加 容易 。 技 巧 是 缓存 需要 确保 不 用 过 期 版 本 的 网 页 响应 。 例 如 ， 服 务 器 为 每 个 送 
回 客户 〈 或 在 服务 器 和 客户 间 的 缓存 ) 的 网 页 指定 一 个 截止 日 期 (Expires 首部 字段 )。 绥 
存 记 住 这 一 日 期 ， 并 且 知 道 在 到 期 前 每 次 请 求 都 不 需要 再 检查 网 页 。 到 期 后 (或 者 如 果 没 
有 设置 该 首部 字段 )， 缓 存 能 使 用 HEAD 或 有 条 件 的 GET 操作 (有 If-Modified-Since 前 


O 这 种 缓存 存在 很 多 问题 ， 从 技术 问题 到 管理 问题 。 技 术 挑 成 的 一 个 例子 是 当 发 给 服务 器 的 请 求 与 发 给 客户 的 
响应 不 使 用 相同 的 路 由 器 序列 时 ， 非 对 称 路 径 将 产生 的 影响 。 
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部 行 的 GET) 去 验证 它 有 没有 该 网 页 的 最 新 拷贝 。 更 常见 的 情况 是 ， 在 整个 请 求 / 啊 应 链 
上 ， 所 有 缓存 机 制 必 须 遵 守 一 组 缓存 指示 (cache directives) ， 这 些 指示 说 明 一 个 文档 是 否 
- 能 被 缓存 、 可 缓存 多 长 时 间 、 一 个 文档 必须 有 多 新 ， 等 等 。 我 们 将 在 9.4. 3 市 讨论 CDN 
(CDN 是 高 效 的 分 布 式 缓存 ) 的 相关 问题 。 


9.1.3 Web 服务 


截至 目前 ， 我 们 已 经 研究 的 大 部 分 应 用 都 包含 人 类 与 计算 机 之 间 的 交互 。 例 如 ， 一 个 
人 用 Web 浏览 器 与 一 台 服 务 器 交互 ， 交 互 是 通过 对 来 自用 户 的 输入 (如 单 击 链接 ) 给 出 
响应 而 进行 的 。 然 而 ， 对 计算 机 到 计算 机 的 直接 交互 的 需求 越 来 越 多 。 并 且 ， 就 像 前 面 讲 
到 的 应 用 需要 协议 一 样 ， 直 接 通信 的 应 用 程序 之 间 也 需要 协议 。 在 本 节 中 ， 我 们 将 着 眼 于 
构建 大 量 应 用 到 应 用 协议 所 面临 的 挑战 以 及 已 提出 的 一 些 解决 方案 。 

使 应 用 程序 之 间 直 接 通信 的 主要 推动 力 来 自 商业 领域 。 历 史上 ， 企 业 〈 商 业 或 其 他 组 
织 ) 之 间 的 交互 曾 包含 一 些 手工 步骤， 如 填 订 单 或 打 电 话 确认 某 个 商品 是 否 有 库存 。 即 使 
是 在 一 个 企业 内 ， 因 独立 开发 而 造成 不 能 直接 交互 的 软件 系统 之 间 包 含 手工 步 又 也 是 很 常 
见 的 。 这 种 手工 交互 正 渐渐 地 被 应 用 之 间 的 直接 交互 所 取代 。 企 业 A 的 一 个 订单 应 用 可 能 
会 发 送 一 条 消息 到 企业 B 的 配 货 应 用 ， 配 货 应 用 会 立即 给 出 回应 来 说 明 是 否 能 够 满足 订 
单 。 如 果 B 无 法 满足 该 订单 ，A 的 应 用 会 立即 从 另 一 个 提供 商 那里 订货 或 请 多 个 提供 商 
竞标 。 

这 里 给 出 一 个 有 关 我 们 正在 讨论 话题 的 简单 例子 。 假 设 你 从 一 个 在 线 零售 商 ， 如 Am- 
azon. com， 买 一 本 书 。 一旦 你 的 书 被 寄 出 以 后 ，Amazon 会 用 电子 邮件 给 你 发 送 一 个 跟踪 
号 码 ， 然 后 你 就 会 转向 航运 公司 的 网 站 (也许 是 http://www. fedex. com) FF HRW. 
然而 ， 你 也 可 以 直接 通过 Amazon. com 网 站 来 跟踪 包 于 。 为 了 实现 这 个 功能 ，Amazon 必 
须 用 联邦 快递 (Fedex) 能 够 理解 的 格式 向 Fedex 发 送 查 询 ， 然 后 解释 结果 ， 并 在 一 个 可 
能 包含 订单 信息 的 网 页 中 显示 该 结果 。 在 用 户 能 够 立即 在 Amazon. com 网 页 上 得 到 有 关 订 
单 的 所 有 信息 的 背后 是 Amazon 与 Fedex 必须 有 一 个 用 于 交换 跟踪 包 庄 所 需要 信息 的 协 
议 一 一 称 为 包 庄 跟踪 协议 (Package Tracking Protocol) 。 应 该 清楚 的 一 点 是 对 于 很 多 潜在 
的 这 类 协议 ， 我 们 最 好 有 一 些 工具 来 简化 定义 及 构建 它们 的 任务 。 

网 络 应 用 甚至 跨越 组 织 边界 的 应 用 并 不 是 新 事物 一 一 我 们 在 前 一 节 中 就 已 经 看 到 了 一 
些 例子 。 这 个 问题 的 一 个 新 着 眼 点 是 规模 ， 不 是 网 络 大 小 的 规模 ， 而 是 不 同 网 络 应 用 的 种 
类 数 的 规模 ， 诸 如 电子 邮件 和 文件 传输 的 传统 应 用 的 协议 规范 和 实现 一 般 是 由 网 络 专家 小 
组 开发 的 。 为 了 迅速 开发 大 量 潜在 的 网 络 应 用 ， 有 必要 推出 一 些 能 够 简化 和 自动 化 应 用 协 
议 设计 和 实现 的 技术 ， 

人 们 已 经 提出 了 两 个 体系 结构 作为 该 问题 的 解决 方案 。 这 两 个 体系 结构 都 称 为 Web 
服务 (Web Services)， 这 个 名 字 取 自 一 个 术语 ， 这 个 术语 指 的 是 为 客户 应 用 提供 远程 访问 
服务 从 而 构成 网 络 应 用 的 单个 应 用 S 。 用 于 区 分 这 两 种 Web 服务 体系 结构 的 两 个 非 正式 
的 简写 是 SOAP 和 REST (就 像 在 “SOAP 与 REST 的 争论 ”中 一 样 )。 我 们 将 简要 讨论 
那些 术语 的 技术 含义 。 | 

SOAP 体系 结构 解决 该 问题 的 方法 是 至 少 在 理论 上 使 得 为 每 一 个 网 络 应 用 生成 定制 协 














O ANE, Web 服务 听 起 来 太 通 用 了 ， 以 至 于 很 多 人 会 错误 地 认为 它 包括 与 Web 相关 的 任何 服务 。 
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议 成 为 可 能 。 这 个 方法 的 关键 组 件 包括 一 个 协议 规范 框架 、 根 据 协 议 规范 自动 产生 协议 实 
现 的 软件 工具 ， 以 及 可 以 在 协议 间 重 用 的 模块 化 的 部 分 规范 、。 | 

REST 体系 结构 解决 该 问题 的 方式 是 将 单个 Web 服务 当 作 万 维 网 资源 一 一 用 URI 标 
识 ， 通 过 HTTP 访问 。 从 本 质 上 讲 ，REST 体系 结构 只 是 Web 体系 结构 。Web 体系 结构 
的 长 处 包括 稳定 性 和 可 证 明 的 可 扩展 性 (在 网 络 大 小 的 意义 上 )。HTTP 不 能 很 好 地 适应 
调用 远程 服务 的 一 般 过 程 性 模式 或 面向 操作 的 模式 ， 这 可 以 认为 是 它 的 一 个 弱点 。 然 而 
REST 倡导 丰富 的 服务 能 够 通过 使 用 HTTP 更 适用 的 更 面向 数据 的 模式 或 文档 传递 模式 
进行 发 布 。 

虽然 目前 对 这 两 种 结构 的 应 用 都 比较 活跃 ， 但 它们 还 是 太 新 ， 还 没有 现实 使 用 的 实验 
数据 。 二 者 竞争 的 方式 能 够 教 给 我 们 一 些 意义 深远 的 关于 网 络 应 用 的 知识 。 一 种 体系 结构 
也 许 会 占据 主导 地 位 ， 或 者 它们 以 某 种 方式 融合 ， 或 者 我 们 可 能 发 现 一 种 体系 结构 更 适合 
有 某 些 类 的 应 用 而 另 一 种 体系 结构 则 更 适合 其 他 类 的 应 用 。 

1. 定制 应 用 协议 (WSDL, SOAP) 

韭 正式 地 称 为 SOAP 的 体系 结构 基于 Web 服务 描述 语言 (Web Services Description 
Language, WSDL) 和 SOAP© 。 这 两 个 标准 都 是 由 万 维 网 联盟 (World Wide Web Con- 
sortium, W3C) 发 布 的 。 这 就 是 人 们 通常 在 没有 任何 限定 语 的 情况 下 使 用 术语 Web 服务 
时 所 表示 的 体系 结构 。 这 些 标准 现在 依然 在 迅速 发 展 ， 我 们 在 这 里 的 讨论 实际 上 是 一 个 
快照 。 | 

WSDL 和 SOAP 分 别 是 用 于 说 明和 实现 应 用 协议 和 传输 协议 的 框架 。 它 们 通 稼 一 起 
使 用 ,虽然 并 非 必 须 如 此 。WSDL 用 于 说 明 与 应 用 相关 的 细节 ， 如 支持 什么 操作 、 用 于 调 
用 或 啊 应 那些 操作 的 应 用 数据 的 格式 ， 以 及 操作 是 否 包含 响应 。SOAP 的 作用 是 使 定义 具 
有 所 期 望 的 (诸如 可 靠 性 和 安全 性 方面 特征 语义 的 传输 协议 变 得 简单 。 

WSDL 和 SOAP 主要 是 由 协议 规范 语言 组 成 。 它 们 都 基于 XML ( 见 7.1.3 节 )， 并 兼 
顾 对 诸如 桩 编译 器 和 目录 服务 等 的 使 用 。 在 有 很 多 定制 协议 的 环境 中 ， 对 目 动 产生 实现 的 
文 持 是 很 关键 的 ， 以 避免 手动 实现 每 一 个 协议 。 文 持 软 件 一 般 采 用 第 三 方 厂商 开发 的 工具 
包 和 应 用 服务 器 的 形式 ， 这 就 允许 单个 Web 服务 的 开发 者 能 够 更 多 地 专注 于 他 们 需要 解 
次 的 业务 问题 〈 如 跟 踩 客户 所 购买 的 软件 包 ) 。 

2. 定义 应 用 协议 

WSDL 选择 应 用 协议 的 过 程 操 作 模 型 。 抽 象 的 Web 服务 接口 由 一 组 命名 的 操作 组 成 ， 
每 一 个 操作 代表 客户 与 Web 服务 之 间 的 简单 交互 。 操 作 类 似 于 RPC 系统 中 的 远程 调用 过 
fe. HA W3C 的 WSDL 入 门 中 的 一 个 例子 是 旅馆 预订 Web 服务 ,包括 CheckAvailability 
和 MakeReservation 两 个 操作 。 本 

每 一 个 操作 描述 了 给 出 消息 传输 序列 的 消息 交换 模式 (message exchange pattern, 
MEP) ， 包 括 当 有 错误 打 断 了 消息 流 后 要 发 送 的 软 认 消息 。 已 经 预定 义 了 几 个 MEP, ta] 
以 定义 新 的 用 户 MEP， 但 在 实际 中 好 像 只 有 两 个 MEP 正在 使 用 ，In-Only (从 客户 发 到 
服务 器 的 一 条 消息 ) 和 In-Out (来 自 客 户 的 一 个 请 求 和 来 是 服 务 需 的 啊 应 ) 。 这 些 模 式 应 
该 非常 类 似 ， 但 也 暗示 支持 MEP 灵活 性 的 代价 可 能 超过 了 其 市 来 的 好 处 。 


O 虽然 名 字 SOAP 最 初 是 一 个 首 字 母 缩写 词 ， 但 它 不 再 正式 代表 任何 东西 。 


MEP 是 具有 占 位 符 而 不 是 特定 的 消息 类 型 或 格式 的 模板 ， 因 此 操作 定义 中 的 一 部 分 
要 指明 用 哪些 消息 格式 映射 到 模板 中 的 占 位 符 。 消 息 格 式 的 定义 不 像 我 们 已 经 讨论 的 协议 
一 样 定义 在 比特 级 ， 而 是 定义 为 使 用 XML KA 〈 见 7.1.3 节 ) 的 抽象 数据 模型 。XML 大 
纲 提供 了 一 个 基本 数据 类 型 集 以 及 定义 复合 数据 类 型 的 方法 。 符 合 XML 大 纲 定义 格式 
(抽象 数据 模型 ) 的 数据 能 够 用 XML 具体 表示 ， 或 者 使 用 另 一 种 表示 方法 ， 如 “二 进 制 ” 
表示 Fast Infoset, 

WSDL 巧妙 地 将 能 够 抽象 描述 的 协议 部 分 (操作 、MEP、 抽 象 消息 格式 ) 与 必须 具 
体 定义 的 部 分 分 开 。WSDL 的 具体 部 分 定义 了 一 个 低层 协议 、MEP 如 何 映 射 到 协议 ， 以 
及 消息 在 线 上 传输 时 使 用 什么 比特 级 的 表示 。 这 部 分 协议 称 为 绑 定 (binding)， 虽 然 将 其 
描述 为 一 个 实现 或 一 个 到 实现 的 映射 更 好 。WSDL 已 经 为 HTTP 和 基于 SOAP 的 协议 预 
定义 了 绑 定 ， 也 包括 一 些 参 数 ， 以 便 协 议 设 计 者 可 调节 到 协议 的 映射 。WSDL 有 一 个 用 于 
定义 新 绑 定 的 框架 ， 但 SOAP 协议 占 主 导 地 位 。 

WSDL 在 减轻 定义 大 量 协议 的 工作 量 方面 的 关键 是 复 用 基本 的 规范 模块 。Web 服务 
的 WSDL 规范 可 能 由 多 个 WSDL 文档 组 成 ， 单 个 WSDL 文档 可 用 于 其 他 Web 服务 规范 。 
这 种 模块 化 使 得 开发 规范 更 简单 ， 并 且 能 够 很 容易 地 确认 两 个 规范 是 否 有 相同 的 组 件 〈 例 
如 ， 它 们 可 以 由 相同 的 工具 来 支持 ) 以 及 那些 组 件 是 否 真 的 相同 。 这 种 模块 化 以 及 WSDL 
的 默认 规则 也 有 助 于 避免 规范 对 于 协议 设计 者 来 说 太 宛 长 。 

对 于 开发 过 中 等 规模 软件 的 人 来 说 ， 应 该 很 熟悉 WSDL 模块 化 。 一 个 WSDL 文档 没 
有 必要 是 一 个 完整 的 规范 ， 例 如 ， 它 可 以 定义 一 个 消息 格式 或 者 一 个 特定 WSDL 接口 的 
绑 定 。 部 分 规范 通过 XML 命名 空间 ( 见 7.1. 3 节 ) 被 唯一 标识 ， 每 一 个 WSDL 文档 指明 
一 个 目标 命名 空间 (target namespace) 的 URI， 文 档 中 的 任何 新 定义 都 在 那个 命名 空间 
上 下 文中 命名 。 一 个 WSDL 文档 可 以 通过 包含 (including) 第 二 个 有 相同 目标 命名 空间 的 
文档 或 导入 (importing) 有 不 同 目标 命名 空间 的 文档 来 集成 其 中 的 组 件 。 

”3. 定义 传输 协议 | | 

虽然 SOAP 经 常 称 为 一 个 协议 ， 但 最 好 将 其 看 成 一 个 协议 族 的 基础 或 者 一 个 定义 协议 
的 框架 。 正 如 SOAP 1. 2 规范 中 的 解释 ，“SOAP 提供 了 一 个 简单 的 消息 框架 ， 其 核心 功 
能 是 提供 可 伸缩 性 .”SOAP 使 用 许多 与 WSDL 相同 的 策略 ， 包 括 用 XML 大 纲 定义 消息 
格式 、 到 低层 协议 的 绑 定 、MEP 和 用 XML 命名 空间 标识 的 可 重用 规范 组 件 。 

SOAP 用 于 定义 具有 文 持 特定 应 用 协议 所 需 特性 的 传输 协议 。SOAP 的 目标 是 使 得 通 
过 可 复 用 组 件 定义 很 多 协议 变 得 可 行 。 每 个 组 件 捕获 实现 一 个 特定 特性 时 的 首部 信息 和 逮 
辑 。 为 了 定义 一 个 具有 特定 特性 集 的 协议 ， 只 需要 组 合 相 应 的 组 件 。 当 然 ， 也 没有 那么 简 
单 。 让 我 们 更 进一步 看 看 SOAP 的 这 个 方面 。 | 

SOAP 1.2 引 入 了 特性 (feature) 抽象 ， 其 描述 如 下 : SOAP 特性 是 SOAP 消息 框架 
的 扩展 。SOAP 并 没 限制 潜在 特性 的 范围 ， 特 性 的 例子 包括 “可 靠 性 ” (reliability)、“ 安 
全 性 ”(security)、“ 相 互 关 系 ” (correlation)、“ 路 由 ” (routing) 和 消息 交换 模式 (mes- 
sage exchange patterns，MEP)， 诸 如 请 求 /响应 、 单 向 和 对 等 会 话 。 一 个 SOAP 特性 规范 
必须 包括 : 

。 一 个 标识 该 特性 的 URI, 
。 抽象 描述 的 状态 信息 和 处 理 过 程 ， 每 个 SOAP 节点 实现 该 特性 时 需要 这 些 信 息 。 


。 传递 到 下 一 个 节点 的 信息 。 
。 如 果 该 特性 是 MEP， 那 么 将 交换 消息 的 生命 周期 和 临时 关系 /因果 关系 (例如 ， 响 
应 跟 在 请 求 之 后 ， 并 且 被 发 送 到 请 求 的 发 起 者 )。 

注意 ， 这 种 协议 特性 概念 的 形式 化 是 非常 低层 的 ， 它 几乎 就 是 一 个 设计 。 

对 给 定 的 一 个 特性 集合 ， 有 两 种 策略 可 定义 实现 这 些 特性 的 SOAP 协议 。 一 种 是 分 
B: 以 派生 特性 的 方式 将 SOAP 绑 定 到 低层 协议 。 例 如 ， 我 们 通过 将 SOAP REA HT- 
TP 来 获得 一 个 请 求 /响应 协议 ， 将 SOAP 请 求 放 在 HTTP 请 求 中 ， 将 SOAP 响应 放 在 
HTTP 啊 应 中 。 因 为 这 是 一 个 非常 常见 的 例子 ， 因 此 SOAP 已 经 预定 义 为 与 HTTP 绑 定 ， 
新 的 绑 定 可 以 通过 使 用 SOAP 协议 绑 定 框架 来 定义 。 

另 一 种 更 灵活 的 实现 特性 的 方式 包含 首部 块 (header 
block), SOAP 消息 由 信封 和 主体 组 成 ， 信 封包 含 由 首部 块 组 成 
的 首部 ， 主 体 包含 发 给 最 终 接收 者 的 载荷 。 该 消息 的 结构 在 图 
9-6 中 进行 了 说 明 。 

现在 ， 某 些 首部 信息 对 应 特定 的 特性 应 该 是 一 个 熟悉 的 说 
法 。 数 字 签名 用 于 实现 认证 ， 序 列 号 用 于 可 靠 性 ， 校 验 和 用 于 
检测 消息 错误 。SOAP 首部 块 的 目的 是 封装 对 应 特定 特性 的 首 
部 信息 。 这 种 对 应 不 总 是 一 对 一 的 ， 因 为 一 个 特性 可 能 涉及 多 图。 8 SOAP N A KEH 
个 首部 块 ， 或 者 一 个 首部 块 用 于 多 个 特性 。SOAP 模块 (mod- 
ule) 是 针对 一 个 或 多 个 首部 块 的 语法 和 语义 的 规范 。 每 一 个 模块 用 于 提供 一 个 或 多 个 特 
性 ， 并 且 必 须 声明 它 所 实现 的 特性 。 

SOAP 模块 的 深层 目标 是 能 够 通过 简单 地 包含 每 个 相关 的 模块 规范 来 组 合 一 个 具有 一 
组 特性 的 协议 。 如 果 协 议 至 多 需要 一 个 语义 和 认证 ， 那 么 就 把 对 应 的 模块 包含 在 规范 中 。 
这 展示 了 一 种 协议 服务 模块 化 的 巧妙 方法 ， 是 我 们 在 整 本 书 中 看 到 的 协议 分 层 方 法 的 替代 
方法 。 它 有 点 像 以 结构 化 的 方法 将 一 系列 协议 层 扁平 化 为 一 个 协议 。 至 于 SOAP 1. 2 中 引 
入 的 SOAP 特性 和 模块 在 实践 中 工作 的 如 何 还 有 待考 察 。 这 种 方案 的 一 个 主要 弱点 是 模块 
之 间 可 能 会 互相 干扰 。 模 块 规范 需要 指明 所 有 与 其 他 SOAP 模块 的 已 知 (known) 交互 ， 
显然 这 对 于 解决 问题 没有 太 大 帮助 。 另 一 方面 ， 提 供 了 最 重要 特性 的 核心 特性 及 模块 集合 
可 能 足够 小 而 被 熟知 和 充分 理解 。 

4. Web 服务 协议 的 标准 化 | } 

WSDL 和 SOAP 不 是 协议 ,它们 是 用 于 规范 (specifying) 协议 的 标准 。 对 于 相互 协 
作 来 实现 Web 服务 的 不 同 企业 ， 只 是 在 使 用 WSDL 和 SOAP 来 定义 它们 的 协议 这 一 点 上 
达成 一 致 还 是 不 够 的 ， 它 们 必须 在 具体 协议 上 达成 一 致 一 一 标准 人 化。 例如， 继续 讨论 在 本 
节 开 头 提 到 的 简单 包 训 跟踪 示例 ， 你 可 以 想象 在 线 零售 商 和 航运 公司 可 能 希望 标准 化 一 个 
它们 用 来 交换 信息 的 协议 。 标 准 化 对 于 工具 支持 和 互 操作 都 是 很 关键 的 。 然 而 ， 这 个 体系 
结构 中 的 不 同 网 络 应 用 至 少 在 消息 格式 和 所 使 用 的 操作 方面 存在 差异 。 | 

”对 于 标准 化 与 定制 之 间 的 了 矛盾， 正在 通过 建立 称 为 轮 廉 〈profile) 的 部 分 标准 来 解 
决 。 轮 廊 是 一 个 指南 集合 ， 用 于 在 定义 协议 时 缩小 或 限制 所 参考 的 WSDL、SOAP 和 其 他 
标准 的 选择 范围 。 它 们 同时 也 会 解决 那些 标准 之 间 的 含混 和 差距 。 在 实际 中 ， 轮 廊 通 常 标 
准 化 正在 出 现 的 事实 标准 。 
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应 用 最 广 和 最 多 的 轮 廊 是 WS-I 基 本 轮 廊 〈WS-I Basic Profile) 。 该 轮廓 是 由 Web 服 
Z- H EHR (Web Services Interoperability Organization, WS-I) 提出 的 ， 它 是 一 个 行 
业 联 盟 ， 而 WSDL 和 SOAP 是 由 万 维 网 联盟 (World Wide Web Consortium, W3C) 定义 
的 。 基 本 轮廓 解决 了 定义 Web 服务 时 所 面临 的 最 基本 的 选择 。 最 值得 注意 的 是 ， 它 要 求 
WSDL 只 能 与 SOAP RE, SOAP 只 能 与 HTTP 绑 定 ， 并 且 使 用 HTTP 的 POST 方法 。 
它 还 指定 了 必须 使 用 的 WSDL 和 SOAP 的 版 本 。 

WSI 基 本 安全 轮廓 (WS-T Basic Security Profile) 通过 规定 如 何 使 用 SSL/TLS BU 
及 要 求 遵循 WS 安全 (WS-Security, Web 服务 安全 ) 来 为 基本 轮廓 增加 安全 限制 。WS 
安全 说 明了 如 何 使 用 各 种 不 同 的 现 有 技术 ， 如 X. 509 公 铀 证 书 (UL 8. 2.145) Fil Kerberos 
CJL 8. 3. 3 节 ) 为 SOAP 协议 提供 安全 特性 。 

WS 安全 只 是 一 套 由 行业 联盟 结构 化 信息 标 准 发 展 组 ZA (Organization for the Ad- 
vancement of Structured Information Standards, OASIS) 建立 的 不 断 扩 大 的 SOAP 级 标 
准 中 的 第 一 人 个。 这些 标准 统称 为 WS- x, 48 WS-Reliability, WS-ReliableMessaging, 
WS-Coordination 和 WS-AtomicTransaction, 

5. 一 个 通用 的 应 用 协议 CREST) 

WSDL/SOAP Web 服务 体系 结构 的 基本 假设 是 ， 集 成 网 络 应 用 的 最 好 方法 是 使 用 为 
每 一 个 应 用 定制 的 协议 。 这 个 体系 结构 的 设计 目标 是 使 得 定义 和 实现 那些 协议 成 为 可 能 。 
与 之 相 比 ，REST Web 服务 体系 结构 的 基本 假设 是 ， 集 成 网 络 应 用 的 最 好 方法 是 应 用 万 维 
网 体系 架构 的 模型 〈 见 9. 1, 2 节 ) 。 这 个 模型 是 由 Web 体系 架构 师 Roy Fielding RAHN, 
称 为 表述 性 状态 转移 (REpresentational State Transfer, REST). KA DEZ XN Web 服务 
定义 一 个 新 的 REST 结构 现 有 的 结构 是 适用 的 ， 虽 然 可 能 需要 做 一 些 扩展 。 在 Web 
体系 结构 中 ， 单 个 Web 服务 被 看 作用 URI 标识 并 通过 HTTP 访问 的 资源 一 一 带 有 单一 通 
用 寻 址 方案 的 单一 通用 应 用 协议 。 

WSDL 有 用 户 定义 的 操作 ， 而 HTTP 只 有 一 个 很 小 的 方法 集 ， 如 GET 和 POST CL 
R 9-1)。 那 么 这 些 简 单方 法 如 何 为 丰富 的 Web 服务 提供 接口 ? 通过 使 用 REST 模型 ， 复 
杂 性 从 协议 转移 到 载荷 。 载 荷 是 资源 抽象 状态 的 表示 。 例 如 ，GET 会 返回 资源 当前 状态 
的 表示 ，POST 则 会 发 送 资源 的 一 个 期 望 状态 的 表示 。 

资源 状态 的 表示 是 抽象 的 ， 它 没有 必要 模仿 一 个 特定 的 Web 服务 实例 实际 上 是 如 何 
实现 该 资源 的 。 没 有 必要 在 每 一 条 消息 中 传递 完整 的 消息 状态 。 可 以 通过 只 传递 感 兴趣 的 
(如 ， 只 是 正在 被 修改 的 部 分 ) 状态 来 减 小 消息 的 大 小 。 并 且 ， 因 为 Web 服务 与 其 他 Web 
资源 共享 一 个 协议 和 地 址 空间 ， 所 以 部 分 状态 能 够 通过 引用 (通过 URD 传递 ， 即 使 这 些 
状态 属于 其 他 Web 服务 。 

这 种 方法 最 好 外 总 结 为 与 过 程 模式 相对 的 面向 数据 或 文档 的 传递 模式 。 在 这 种 体系 结 
构 中 定义 应 用 协议 包括 定义 文档 结构 〈 即 状态 表示 )。XML 和 更 轻 载 的 JavaScript WAR 
示 法 (JavaScript Object Notation, JSON) 是 最 常用 的 状态 表示 语言 ( 见 7.1 节 )。 互 操 
ERT Web 服务 与 其 客户 对 状态 表示 的 协商 。 当 然 ， 在 SOAP 中 也 是 这 样 的 ，Web 服 
务 和 其 客户 必须 在 载荷 格式 上 达成 一 致 。 不 同 的 是 ， 在 SOAP 结构 中 ， 互 操作 性 还 依赖 于 
对 协议 的 协商 。 在 REST 结构 中 ， 协 议 总 是 HTTP， 因 此 互 操 作 问 题 的 源头 被 消除 了 。 
REST 的 卖点 之 一 是 它 利用 了 用 于 支持 Web 的 基础 设施 。 例 如 ，Web 代理 能 够 实施 





安全 机 制 或 缓存 信息 。 现 有 的 内 容 分 发 网 络 (CDN) 可 用 于 支持 REST 应 用 。 

与 WSDL/SOAP 相 比 ，Web 已 经 历经 了 一 段 时 间 来 使 得 标准 变 得 稳定 并 证 明 它 具有 
民 好 的 可 扩展 性 。 它 还 以 SSL/TLS 的 形式 提供 了 安全 性 。Web 和 REST 在 可 发 展 性 上 也 
HRA. BI WSDL 和 SOAP 框架 (framework) 在 定义 协议 时 能 够 添加 新 特性 ， 且 在 绑 
定 方 面 高 度 灵 活 ， 但 一 旦 协议 被 定义 ， 这 种 灵活 性 就 不 相关 了 。 例 如 ，HTTP 的 标准 化 协 
以 在 设计 时 就 要 以 后 向 兼容 的 方式 提供 可 扩展 性 。HTTP 本 身 的 可 扩展 性 以 首部 、 新 方法 
和 新 内 容 类 型 的 方式 提供 。 使 用 WSDL/SOAP 的 协议 设计 者 需要 在 每 一 个 定制 协议 的 设 
计 中 提供 可 扩展 性 。 当 然 ，REST 体系 结构 中 的 状态 表示 设计 者 还 要 在 设计 中 提供 可 发 
EE. 

WSDL/SOAP 可 能 具有 优势 的 领域 是 修改 或 包装 之 前 的 传统 应 用 ， 使 之 符合 Web AR 
务 。 这 是 非常 重要 的 一 点 ， 因 为 至 少 在 不 久 的 将 来 ， 大 部 分 Web 服务 还 是 基于 传统 应 用 
的 。 这 些 应 用 通常 具有 过 程 化 的 接口 ， 更 容易 映射 为 WSDL 操作 而 不 是 REST 状态 。 
REST 与 WSDL/SOAP 的 竞争 可 能 与 为 单个 Web 服务 修改 REST 风格 接口 的 难 易 息 息 相 
关 。 我 们 可 能 会 发 现 有 些 Web 服务 用 WSDL/SOAP 更 好 ， 而 其 他 的 则 用 REST 更 好 。 

在 线 零售 商 Amazon. com 恰好 是 Web 服务 的 一 个 早期 (2002 年 ) 采纳 者 。 有 趣 的 
是 ，Amazon 通过 这 两 种 Web 服务 体系 结构 来 提供 系统 的 公开 访问 ， 并 且 这 几 年 中 有 大 约 
80% 的 使 用 是 通过 REST 接口 。 当 然 ， 这 只 是 一 个 可 能 很 好 地 反映 了 特定 于 Amazon 因素 
ATE AS 。 : 





vat 和 vic 之 类 的 应 用 ，MBone 是 支持 IP 多 播 来 实现 多 方 会 议 的 覆盖 网 络 。 开 始 时 ， 每 个 
应 用 实现 上 自己 的 协议 〈 或 协议 族 )， 但 显然 ， 许 多 多 媒体 应 用 有 共同 的 需求 。 这 最 终 导 致 
需要 开发 用 于 多 媒体 应 用 的 一 些 通用 协议 。 

我 们 已 经 看 到 了 很 多 多 媒体 应 用 使 用 的 协议 。 实 时 传输 协议 (Real-time Transport 
Protocol, RTP) (在 5.4 节 中 描述 ) 提供 了 多 媒体 应 用 的 共有 功能 ， 如 传递 定时 信息 、 标 
识 应 用 的 编码 机 制 和 媒体 类 型 。 

资源 预 留 协议 (Resource Reservation Protocol, RSVP) (参见 6. 5. 2 47) 用 于 在 网 络 
上 请 求 分 配 资源 ， 以 便 能 够 为 一 个 应 用 提供 所 期 望 的 服务 质量 〈QoS) 。 我 们 将 在 9. 2. 2 市 
看 到 资源 分 配 如 何 与 多 媒体 应 用 的 其 他 方面 交互 。 

除了 用 于 多 媒体 传输 和 资源 分 配 的 这 些 协 议 ， 许 多 多 媒体 应 用 还 需要 会 话 控制 (ses- 
sion control) 协议 。 例 如 ， 假设 我 们 希望 打 一 个 跨越 因特网 的 电话 《Voice over IP, 
VoIP) 。 我 们 需要 某 种 机 制 去 通报 本 次 呼叫 的 预定 接收 方 ， 即 我 们 想 要 与 她 通话 ， 比 如 ， 
通过 回 某 个 多 媒体 设备 送出 一 个 消息 使 之 发 出 铃声 。 我 们 也 和 硕 望 支持 类 似 于 呼叫 转移 和 三 
方 呼叫 等 特性 。 会 话 初 始 化 协议 CSession Initiation Protocol, SIP) 和 H. 323 就 是 解决 会 
话 控制 问题 的 协议 的 例子 ， 我 们 将 分 析 这 些 协 议 作 为 讨论 多 媒体 应 用 的 开始 。 


O 参见 “实验 十 四 ”和 “实验 十 五 ”。 
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话 二 制 和 呼叫 控制 (SDP、SIP、H. 323 ) 


为 了 理解 会 话 控制 的 相关 问题 ， 考 虑 以 下 问题 。 假 设 你 想 在 某 个 时 间 为 广大 参与 者 举 
办 一 次 视频 会 议 ， 也 许 你 已 决定 使 用 MPEG-2 标准 为 视频 流 编码 ， 使 用 多 播 IP 地 址 
224. 1. 1. 1 传输 数据 ， 并 且 在 端口 号 为 4000 的 UDP 之 上 使 用 RTP 发 送信 息 。 你 将 如 何 把 
这 些 信息 通知 所 有 预期 的 与 会 者 呢 ? 一 种 方法 是 将 所 有 信息 放 在 电子 邮件 中 送出 ， 但 理想 的 
情况 是 有 一 种 传播 这 种 信息 的 标准 格式 和 协议 。IETF 已 经 定义 了 用 于 此 目的 的 协议 ， 包 括 
会 话 描述 协议 (Session Description Protocol, SDP). 
会 话 发 布 协议 (Session Announcement Protocol, SAP). 
会 话 初始 化 协议 (Session Initiation Protocol，SIP) 。 
简单 会 议 欣 制 协议 (Simple Conference Control Protocol, SCCP). 

你 可 能 认为 这 是 为 看 似 简单 的 任务 准备 的 许多 协议 ， 但 是 这 个 问题 有 多 个 方面 和 不 同 
的 情况 需要 解决 。 例 如 ，MBone 上 将 举行 的 某 次 会 议会 话 〈 这 可 以 用 SDP 和 SAP 来 完 
成 ) 和 试图 在 一 个 特定 的 时 间 与 某 个 用 户 发 起 因特网 电话 呼叫 《这 可 以 用 SDP 和 SIP 来 
完成 ) 之 间 存 在 差别 。 对 于 前 者 ,一 旦 你 将 所 有 会 话 信息 以 标准 格式 送 到 一 个 众所周知 的 
多 播 地 址 ， 就 可 以 认为 你 的 工作 完成 了 。 而 对 于 后 者 ， 你 需要 定位 一 个 或 多 个 用 户 ， 给 他 
们 发 一 条 消息 来 通知 你 想 通话 的 愿望 〈 类 似 于 拨 通 他 们 的 电话 )， 并 且 可 能 要 在 各 方 中 协 
商 一 个 合适 的 音频 编码 。 我 们 首先 看 SDP， 许 多 应 用 都 使 用 它 ， 然 后 再 看 SIP， 它 正 渐渐 
被 很 多 交互 式 应 用 所 广泛 使 用 ， 比 如 因特网 电话 。 

1. 会 话 描述 协议 (SDP) 

会 话 描述 协议 (SDP) 是 一 个 相当 通用 的 协议 ， 能 用 于 多 种 场景 ， 通 第 与 一 个 或 多 个 
其 他 协议 (如 SIP) 联合 使 用 ， 它 传达 如 下 信息 : 

。 会 话 的 名 字 和 目的 。 

。 会 话 的 开始 和 结束 时 间 。 

。 会 话 包 含 的 媒体 类 型 如 音频 、 视 频 )。 

。 接收 会 话 所 需 的 细节 信息 〈 如 数据 将 被 送 到 的 多 播 地 址 、 所 用 到 的 传输 协议 、 端 

口号 、 编 码 方案 ) 。 | 

SDP 使 用 一 系列 ASCII 格式 的 文本 行 来 提供 这 些 信 息 ， 每 一 行 的 形式 为 (type) = 
(value) (类 型 ) 二 ( 值 ;)。 以 下 用 一 条 示例 消息 来 解释 SDP 的 要 点 。 

oa 2890844526 2890842807 IN IP4 128.112.136.10 

s=Networking 101 

i=A class on computer networking 

u=http://www.cs.princeton.edu/ 

e=larry@cs.princeton.edu 

CIN AIPA (224 22.1 Peles Ler 

t=2873397496 2873404696 

m=audio 49170 RTP/AVP 0 


m=video 51372 RTP/AVP 31 
m=application 32416 udp wb 


注意 ，SDP & HTML 一 样 很 容易 阅读 ， 但 其 严格 的 格式 化 规则 使 计算 机 能 清晰 地 解 
释 数 据 。 例 如 ，SDP 规范 定义 所 有 人 允许 出 现 的 信息 “类 型 >、 信息 呈现 次 序 以 及 每 种 被 定 


© 


e 


© 
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义 的 类 型 的 格式 和 保留 字 。 
首先 注意 到 每 种 信息 “类 型 ”由 单个 字符 标识 。 例 如 ， - v=0 告诉 我 们 anal 
的 值 是 0 就 是 说 ， 这 个 消息 的 格式 符合 SDP 版 本 0 规范 )。 行 提 供 会 话 的 “ 源 ”， 


含有 足够 多 的 信息 以 唯一 标识 该 会 话 。 ee 
128. 112. 136. 10 是 他 的 计算 机 的 IP 地 址 。 跟 随 在 larry 后 面 的 数字 是 会 话 标识 符 ， 它 对 于 
那 台 机 器 来 说 是 唯一 的 。 接 下 来 是 SDP 通知 的 “版 本 ”号 ， 如 果 会 活 信息 被 后 来 的 消息 
更 新 ， 版 本 号 将 增加 。 

楼 下 来 的 三 行 (s、i 和 u) 一 会 话 的 名 字 、 会 话 描述 和 会 话 的 统一 资源 标识 符 
CURI， 见 9.1.2 节 )， 这 些 信息 有 助 于 用 户 决定 是 否 参与 本 次 会 话 。 这 样 的 信息 将 显示 在 
用 户 的 会 话 目 录 工 具 界面 上 ， 以 表明 现在 和 即将 来 临 的 已 经 用 SDP 通知 的 事件 。 下 一 行 
(c=...) 含有 某 个 与 本 次 会 话 有 关 的 人 的 电子 邮件 地 址 。 图 9-7 显示 了 一 种 称 为 sdr 的 
会 话 目录 工具 的 屏幕 画面 以 及 在 截取 画面 时 已 经 通知 的 若干 会 话 的 描述 





图 9-7 ”一 个 会 话 目 录 工 具 显示 的 从 SDP 消息 中 摘录 的 信息 


下 面 我 们 将 进入 使 一 个 应 用 程序 能 够 参与 会 话 的 技术 细节 。 以 c =... 开始 的 行 提供 
这 个 会 话 的 数据 将 要 发 往 的 IP 多 播 地 址 ， 用 户 需要 加 入 这 个 多 播 组 才能 接收 会 话 ， 接 下 
来 我 们 看 到 的 是 会 话 的 开始 和 结束 时 间 (根据 网 络 时 间 协 议 NTP 被 编码 为 整数 ) 。 最 后 得 
到 有 关 本 次 会 话 的 媒体 信息 。 本 次 会 话 有 三 种 可 用 的 媒体 类 型 一 一 音频 、 视 频 以 及 称 为 
“wb” 的 共享 白板 应 用 。 对 每 种 媒体 类 型 都 有 如 下 格式 的 信息 行 | 


m=<media> <port> <transport> <format> 


媒体 类 型 是 自 解释 的 ， 而 端口 号 在 多 种 情况 下 是 指 UDP 端口 。 当 我 们 看 “传输 ” 字 
段 时 ， 能 看 出 wb 应 用 直接 运行 在 UDP 之 上 ， 而 音频 和 视频 使 用 “RTP/AVP” 传 输 。 这 
意味 着 Cs RTP 上 并 且 使 用 称 为 AVP 的 应 用 轮廓 (application profile) (JL 5. 4 45 
中 的 定义 )。 这 个 轮廓 为 音频 和 视频 定义 一 些 不 同 的 编码 方案 ， 这 里 我 们 能 看 到 ， 音 频 使 
用 编码 0 aes 8kHz 的 采样 频率 和 每 样本 8 比特 的 编码 )， 视频 使 用 编码 31， 代 表 
H. 261 编码 方案 。 这 些 编码 方案 的 “神奇 的 数字 ”在 定义 AVP 轮廓 的 RFC 中 和 定义。 在 
SDP 中 也 有 可 能 描述 非 标准 的 编码 方案 。 

最 后 我 们 来 看 “wb” 媒 体 类 型 的 描述 。3 这 种 数据 的 所 有 编码 信息 都 是 特定 于 wb 应 用 
的 ， 因 此 在 格式 字段 提供 应 用 的 名 字 就 足够 了 。 这 类 似 于 将 应 用 application/wb 放 人 一 条 


MIME 消息 中 。 

现在 我 们 已 经 知道 了 如 何 描述 会 话 ， 可 以 继续 关注 如 何 初 始 化 会 话 。 一 种 办 法 是 使 用 
SDP 通过 向 一 个 众所周知 的 多 播 地 址 送出 SDP 消息 以 通告 多 媒体 会 议 。 显 示 在 图 9-7 中 的 
”会 话 目 录 工 具 负 责 将 其 加 入 多 播 组 ， 并 且 从 接收 到 的 SDP 消息 中 收集 和 显示 信息 。SDP 也 用 
于 传输 IP 娱乐 视频 (通常 称 为 I PTV)， 用 于 提供 每 个 电视 频道 中 视频 内 容 的 相关 信息 。 

SDP 也 在 与 会 话 初始 化 协议 (SIP) 的 合作 中 扮演 重要 角色 。 由 于 卫 语音 〈 即 在 IP 
网 络 上 支持 类 似 电 话 的 应 用 ) 和 基于 IP 的 视频 会 议 的 广泛 普及 ， 因 此 SIP 现在 已 经 成 为 
IP 互联 网 协议 族 的 重要 组 成 部 分 。 

2. SIP 


SIP 是 一 个 与 HTTP 有 点 类 似 的 应 用 层 协 议 ， 基 于 相似 的 请 求 / 响 应 模式 。 然 而 ， 记 
住 它 是 为 不 同 种 类 的 应 用 设计 的 ， 因 而 它 提供 与 HTTP 截然 不 同 的 能 力 。SIP 所 提供 的 能 
力 可 以 分 成 五 类 

。 用 户 定 位 : 确定 与 特定 用 户 通信 的 恰当 设备 。 

。 用 户 可 用 性 : 确定 用 户 是 否 自愿 或 能 够 参加 一 个 特定 的 通信 会 话 。 

。 用 户 能 力 : 确定 采用 哪 种 媒体 和 编码 方案 。 

。 会 话 建立 ， 建 立会 话 参 数 ， 诸 如 通信 各 方 所 使 用 的 端口 号 。 

Sane 包括 传递 会 话 〈 如 实现 “呼叫 转发 ” 和 修改 会 话 参数 等 功能 

这 些 功 能 中 的 大 部 分 都 很 容易 理解 ， 但 定位 问题 需要 进一步 讨论 。SIP HTTP 之 间 
的 一 一 个 重要 差别 是 SIP 主要 用 于 人 与 人 的 通信 。 因 此 ， 重 要 的 是 能 定位 独立 的 用 户 Cos. 
er) 而 不 是 计算 机 。 与 电子 邮件 系统 不 同 ， 只 定位 用 户 今后 某 个 日 期 访问 并 转 储 消息 的 服 
务 器 是 不 够 的 。 如 果 想 实现 实时 通信 ， 我 们 就 需要 知道 现在 用 户 在 什么 地 方 。 这 一 功能 更 
复杂 的 方面 在 于 用 户 可 以 选用 一 系列 不 同 设备 进行 通信 的 事实 ， 例 如 ， 在 办 公 室 时 使 用 揭 
面 PC 而 旅行 时 使 用 手持 设备 。 多 种 设备 可 以 同时 参与 并 且 能 力 上 差别 巨大 (如 一 个 文字 
数字 型 的 寻呼机 和 一 个 基于 PC 的 视频 “电话 ”)。 理 想 情况 是 ， 其 他 用 户 可 以 在 任何 时 间 
定位 适当 的 设备 并 与 之 通信 。 此 外 ， 用 户 必须 还 能 控制 何 时 、 何 地 和 接收 何人 的 呼叫 。 

为 了 使 用 户 对 呼叫 行使 适当 级 别 的 控制 ，SIP 引入 代理 的 概念 。SIP 代理 可 以 看 作用 
户 的 联系 点 ， 用 户 可 癌 它 送出 通信 初始 化 请 求 。 这 些 代 理 代 表 呼 叫 者 完成 各 种 功能 。 我 们 
通过 一 个 例子 来 看 看 代理 如 何以 最 佳 的 方式 工作 。 

考虑 图 9-8 中 的 两 个 用 户 。 首 先 需要 注意 的 是 每 个 用 户 有 一 个 user@domain 格式 的 名 
字 ， 很 像 电子 邮件 地 址 。 当 用 户 Bruce ET Larry 的 会 话 时 ， 他 回 他 所 在 域 的 本 
地 代理 cisco. com 发 送 他 的 初始 化 SIP 消息 。 这 条 初始 化 消息 含有 一 个 SIP URI 一 一 格式 
如 下 的 统一 资源 标识 符 : 


SIP: larry@princeton.edu 





PRE SERS FUR 


PRESSES SST EERE EBT PTR TEE PFET EES pi 
| cisco.com | princeton. edi | 
一 


人 和 





Bt 





d—pc.cisco.com llp-ph.cs.princeton.edu 


e@cisco.com larry@princeton.edu 


图 9-8 通过 SIP 代理 建立 通信 


SIP URI 提供 了 用 户 的 完整 标识 ， 但 〈 不 像 URL) 不 提供 他 的 位 置 ， 因 为 位 置 可 能 
随时 变化 。 我 们 将 马上 看 到 如 何 确定 用 户 的 位 置 。 

在 接收 到 来 自 Bruce 的 初始 化 消息 的 基础 上 上， 代理 cisco. com 查看 SIP URI J H HEM 
这 一 消息 应 该 被 送 到 代理 princeton. edu。 现 在 ， 我 们 假设 代理 princeton. edu 已 经 访问 了 
某 些 数据 库 ， 得 到 了 从 名 字 larry@ princeton. edu 到 目前 Larry 希望 用 于 接收 消息 的 一 台 
RE BCS AY IP 地 址 的 映射 。 代 理 能 将 消息 转发 到 Larry 选择 的 设备 上 。 发 送 消息 到 多 
台 设 备 上 称 为 分 支 (Corking) 并 且 可 以 并 行 或 串 行 方式 完成 〈 例 如 ， 如 果 他 的 座机 不 应 答 
就 发 送 到 他 的 手机 上 ) 。 

从 Bruce 到 Larry 的 初始 化 消息 很 可 能 是 一 条 SIP invite 消息 ， 它 看 上 去 与 下 述 形式 
相似 : 

INVITE sip:larry@princeton.edu SIP/2.0 

Via: SIP/2.0/UDP bsd-pc.cisco.com;branch=z9hG4bK433yte4 

To: Larry <sip:larry@princeton.edu> 

From: Bruce <sip:bruce@cisco.com>;tag=55123 

Call-ID: xy745jj210re3@bsd-pc.cisco.com 

Coeg 271828 INVITE 

Contact: <sip:bruce@bsd-pc.cisco.com> 


Content-Type: application/sdp 
Content-Length: 142 


第 一 行 标识 的 内 容 包 括 : 将 要 执行 的 功能 的 类 型 Cinvite); 执行 功能 所 需 的 资源 ， 即 
被 调用 方 (sip: larry@princeton. edu); 以 及 协议 的 版 本 (2.0)。 其 后 的 首部 行 可 能 看 上 
去 眼熟 ， 因 为 它们 与 电子 邮件 消息 中 的 首部 行 有 类 似 之 处 。SIP 定义 了 大 量 的 首部 行 字 
段 ， 这 里 只 描述 其 中 的 一 部 分 。 注 意 本 例 的 Via: 首 部 标识 了 发 送 这 一 消息 的 设备 。 首 部 
Content-Type: 和 Content-Length: 描述 首部 之 后 的 消息 内 容 ， 与 MIME 编码 的 电子 邮件 
消息 相同 。 在 本 例 中 ， 内 容 是 一 条 会 话 描述 协议 CSDP) 消息 。 这 条 消息 将 描述 请 如 
Bruce 与 Larry 想 要 交换 的 媒体 类 型 (音频 、 视 频 等 ) 及 他 所 支持 的 其 他 编 解 码 类 型 等 会 
话 属 性 。 注 意 SIP 的 Content-Type: 字段 提供 使 用 任何 协议 来 完成 任务 的 能 力 ， 尽 管 SDP 
是 使 用 最 普遍 的 协议 。 

再 来 看 这 个 例子 ， 当 invite 消息 到 达 代 理 cisco. com 时 ， 代 理 不 仪 同 princeton. edu 转 
发 消息 ， 它 也 响应 invite 的 发 出 者 。 像 在 HTTP 中 一 样 ， 所 有 响应 都 有 一 个 响应 代码 ， 并 
且 代 码 的 组 织 也 类 似 于 HTTP， 如 表 9-2 所 示 。 在 图 9-9 中 ， 我 们 能 看 到 一 系列 SIP 消息 
和 响应 。 

在 图 9-9 中 的 第 一 个 响应 消息 是 临时 响应 100 trying， 它 表明 消息 已 经 锌 呼叫 代理 无 
差错 接收 。 一 旦 invite 被 传送 给 Larry 的 电话 机 ， 它 将 提醒 Larry 并 且 用 180 ringing 消息 
进行 响应 。 这 一 消息 到 达 Bruce 的 计算 机 后 产生 一 个 “ 振 铃 首 ”。 假设 Larry MEH H tk, 
能 与 Bruce 通信 ， 他 就 摘 下 电话 ， 这 引起 消息 200 OK 被 送出 。Bruce 的 计算 机 以 ACK Iq 
应 ， 并 且 这 时 媒体 〈 如 一 个 RTP 封装 的 音频 流 ) 开始 在 两 个 参与 者 之 间 流 动 。 注 意 这 时 
参与 者 知道 彼此 的 地 址 ， 所 以 ACK 能 绕 过 代理 而 直接 被 发 送 。 此 时 在 呼叫 中 将 不 再 涉及 
代理 。 注 意 ， 媒 体 一 般 将 采取 与 原始 信 令 消息 不 同 的 路 径 穿越 网 络 。 此 外 ， 即 使 一 两 个 代 
理 在 此 时 竣 病 ， 呼 叫 仍 能 正常 维持 。 最 后 ， 当 一 个 参与 者 希望 终止 会 话 时 ， 它 送出 BYE 
消息 ， 在 正常 情况 下 引发 200 OK 啊 应 。 
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图 9-9 一 个 基本 SIP 会 话 的 消息 流 


这 里 我 们 掩盖 了 一 些 细节 。 一 个 是 会 话 特性 的 协商 。 也 许 Bruce 本 来 想 用 首 频 和 视频 
通信 ， 但 Larry 的 电话 机 仅 支 持 音 频 。 因 而 Larry 的 电话 机 在 考虑 了 Bruce 的 invite 中 建 
议 的 选项 后 在 200 OK 中 送出 一 个 描述 Larry 和 他 的 设备 能 接受 的 会 话 属性 。 通 过 这 种 方 
法 ， 在 媒体 流 开始 前 ， 对 彼此 可 接受 的 会 话 参 数 达 成 一 致 。 

我 们 掩盖 的 另 一 个 大 问题 是 定位 Larry 现在 的 设备 。 首 先 ，Bruce 的 计算 机 必须 把 它 
的 invite 送 到 代理 cisco. com。 这 可 能 是 计算 机 内 已 配置 的 信息 ， 或 从 DHCP 得 知 。 然 后 
代理 cisco. com 必须 找到 代理 princeton. edu。 这 可 以 用 某 种 特殊 类 型 的 DNS 查询 并 返 
princeton. edu 域 的 SIP 代理 的 IP 地 址 。( 我 们 在 9. 3. 1 节 讨 论 了 DNS 如 何 实现 这 一 点 。) 
最 后 代理 princeton. edu 必须 找到 联系 Larry 所 使 用 的 设备 。 典型 的 做 法 是 9 AR BEAR SS 2 
访问 用 一 些 方法 建立 的 位 置 数据 库 。 手 工 配 置 是 一 种 选择 ， 但 更 灵活 的 选择 是 使 用 SIP 的 
注册 (registration) 功能 。 

用 户 可 通过 发 送 一 条 SIP register 消息 到 他 域 中 的 “注册 处 ”注册 一 个 位 置 服务 。 这 
条 消息 产生 一 个 记录 地 址 (address of record) 与 联系 地 址 (contact address) = fal AY AB 
定 。 记 录 地 址 看 上 去 是 像 SIP URI 这 样 的 知名 地 址 (如 sip: larry@princeton. edu), MEK 
系 地 址 是 当前 能 够 找到 用 户 的 地 址 (如 sip: larry@llpph. cs. princeton. edu) 。 在 我 们 的 例 
子 中 ， 这 种 绑 定 正 是 代理 princeton. edu 所 需要 的 。 

注意 一 个 用 户 可 以 在 多 个 位 置 注册 并 且 多 个 用 户 可 以 注册 在 同一 台 设 备 上 。 例 如 ， 你 
能 想象 一 组 人 步 人 装备 一 部 IP 电话 的 会 议 室 ， 并 且 所 有 人 都 注册 到 这 部 电话 上 ， 以 使 他 
们 能 在 电话 上 接收 呼叫 。 

SIP 是 一 个 非常 丰富 和 灵活 的 协议 ， 它 能 支持 大 量 不 同 的 复杂 呼叫 情况 ， 也 能 支持 那 
些 与 电话 几乎 无 关 的 应 用 程序 。 例 如 ，SIP 支持 将 呼叫 转移 到 “音乐 保持 ”或 语音 邮件 服 
务 医 的 操作 。 如 何 将 其 用 于 像 即 时 通信 那样 的 应 用 也 是 显而易见 的 。 在 写本 书 时 ， 针 对 这 
些 应 用 的 SIP 扩展 的 标准 化 工作 正在 进行 。 


国际 电信 联盟 ATU) 在 呼叫 控制 领域 也 非常 活跃 ， 因 为 它 和 电话 业 相 关 ， 因 此 这 并 





不 令 人 奇怪 ， 因 为 ITU WES Gee. SISA, FEIT IETF 和 ITU 之 间 
已 经 进行 了 大 力 协 作 ， 所 以 各 种 协议 在 某 种 程度 上 能 互 操 作 。ITU 对 分 组 网 络 上 的 多 媒体 
通信 的 主要 建议 称 为 H. 323， 它 捆绑 了 许多 其 他 建议 ， 包 括 呼叫 控制 协议 H. 225, H. 323 
包含 的 全 部 建议 长 达 好 几 百 页 ， 而 且 这 个 协议 以 其 复杂 性 而 著称 ， 所 以 这 里 只 可 能 给 出 简 
短 的 概述 。 

H. 323 作为 因特网 电话 的 一 个 协议 而 流行 ， 这 里 我 们 考虑 它 的 应 用 。 一 个 发 起 或 终止 
呼叫 的 设备 称 为 H. 323 终端 ， 它 可 以 是 运行 因特网 电话 应 用 程序 的 工作 站 ， 也 可 能 是 特 
别 设计 的 设备 一 一 例如 一 种 具有 网 络 软 件 和 以 太 网 端口 的 类 似 电话 的 设备 。H. 323 终端 能 
直接 相互 对 话 ， 但 呼叫 通常 由 一 种 叫 作 网 阅 (gatekeeper) 的 设备 来 协调 。 网 曾 完 成 一 系 
列 功能 ， 比 如 在 电话 呼叫 使 用 的 各 种 地 址 格式 之 间 转 换 以 及 控制 在 给 定 的 时 间 内 所 发 生 的 
呼叫 次 数 ， 从 而 限制 H. 323 应 用 程序 所 用 的 带宽 。HH. 323 也 包括 网 关 (gateway) 的 概 
念 ， 它 将 H. 323 网 络 连接 到 其 他 类 型 的 网 络 。 网 关 最 常见 的 用 法 是 将 H. 323 网 络 连接 到 
公共 交换 电话 网 (PSTN), WE 9-10 所 示 。 这 使 得 在 一 个 计算 机 上 运行 H. 323 应 用 程序 
的 用 户 能 与 在 公共 电话 网 上 使 用 传统 电话 的 人 通话 。 由 网 闸 完成 的 一 个 有 用 功能 是 帮助 终 
问 找 出 网 关 ， 可 能 要 在 一 系列 候选 设备 中 找 出 与 呼叫 最 终 目 的 地 最 接近 的 网 关 。 这 对 于 传 
统 电话 数目 远大 于 基于 PC 机 的 电话 数目 的 世界 ， 好 处 是 显而易见 的 。 当 一 个 H. 323 终端 
呼叫 一 个 传统 电话 的 端点 时 ， 网 关 变 成 H. 323 呼叫 的 有 效 端 点 ， 并 且 负 责 对 需要 在 电话 
网 上 传输 的 信 令 信息 和 媒体 流 进 行 适当 的 转换 。 
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图 9-10 H. 323 网 络 中 的 设备 


H. 323 的 一 个 重要 部 分 是 H. 245 协议 。H. 245 用 来 协商 呼叫 的 特性 ， 有 点 类 似 于 上 
面 描述 的 SDP 的 用 法 。H. 245 消息 可 以 列 出 许多 它 所 支持 的 不 同音 频 编 码 标准 ， 并 且 呼 
叫 的 远 端 终点 将 答复 一 个 它 所 支持 的 编码 列表 。 然 后 两 端 选取 一 个 双方 都 认可 的 编码 标 
WE. H. 245 还 能 发 信 令 通知 本 次 呼叫 中 将 由 RTP 和 实时 控制 协议 (Real Time Control 
Protocol, RTCP) 使 用 的 用 于 媒体 流 (或 多 个 流 ， 例 如 一 次 呼叫 可 以 包含 音频 和 视频 ) 
的 UDP 端口 号 。 一 且 完 成 这 些 操作 ， 呼 叫 就 能 继续 ， 用 RTP 传送 媒体 流 并 用 RTCP 承载 
相应 的 控制 信息 。 


9. 2.2 多 媒体 应 用 的 资源 分 配 


正如 我 们 已 经 看 到 的 ， 像 SIP 和 H. 323 这 样 的 会 话 控制 协议 能 够 用 于 在 多 媒体 应 用 
中 初始 化 和 控制 通信 ， 而 RTP 为 应 用 的 数据 流 提供 了 传输 层 功 能 。 使 多 媒体 应 用 正常 工 
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作 的 最 后 一 步 是 确保 在 网 络 内 分 配 了 合适 的 资源 ， 以 便 满足 应 用 的 服务 质量 要 求 。 我 们 在 
第 6 章 展示 了 多 种 资源 分 配方 法 。 开 发 这 些 技 术 的 推动 力主 要 是 对 多 媒体 应 用 的 支持 。 因 
此 ， 应 用 如 何 利用 底层 网 络 的 资源 分 配 能 力 呢 ? 
”值得 注意 的 是 ， 很 多 多 媒体 应 用 在 诸如 公共 因特网 的 “尽力 而 为 ”网 络 上 成 功 地 运 
行 。 大 量 商业 IP 语音 服务 (如 Skype) 证 明了 这 样 一 个 事实 ， 当 资源 不 充足 时 ， 你 只 需要 
关心 资源 分 配 一 一 在 当今 的 因特网 上 ， 资 源 匮乏 是 很 常见 的 。 a 

IR RTCP ( 见 5.4 45) 这 样 的 协议 能 够 通过 为 应 用 提供 有 关 网 络 中 所 提供 服务 的 质量 
言 息 来 帮助 尽力 而 为 网 络 中 的 应 用 。 回 忆 一 下 ，RTCP 在 多 媒体 应 用 的 两 个 参与 者 之 间 传 
送 关于 分 组 丢失 率 和 延迟 特性 的 信息 。 应 用 能 够 使 用 这 些 信 息 来 改变 其 编码 方案 一 一 例 
如 ， 当 带宽 较 小 时 改 用 低位 率 的 编码 。 注 意 ， 虽 然 在 分 组 丢失 率 高 时 ， 改 变 成 发 送 附 加 的 
宛 余 信息 的 编码 方式 很 诱 人 ， 但 这 并 不 能 满足 要 求 ， 它 类 似 于 在 出 现 丢 失 分 组 时 增加 TCP 
的 窗口 大 小 ， 这 与 所 期 望 的 避免 拥塞 崩溃 完全 相反 。 | 

正如 在 6.5.3 节 讨 论 的 那样 ， 区 分 服务 (DiffServ) 可 用 于 为 应 用 提供 非常 基础 和 可 
扩展 的 资源 分 配 。 多 媒体 应 用 可 以 在 它 产生 的 分 组 的 IP 首部 设置 区 分 服务 码 点 〈DSCP)， 
以 努力 确保 媒体 分 组 和 控制 分 组 都 能 得 到 适当 的 服务 质量 。 例 如 ， 将 声音 媒体 分 组 标记 为 
“快速 转发 ”( EF)， 将 使 得 它们 被 路 径 上 的 路 由 器 放置 在 一 个 低 延 迟 或 高 优先 级 的 队列 
中 ， 而 呼叫 信 令 (如 SIP) 分 组 则 通常 标记 为 某 种 “确保 转发 ”( AF) 以 便 能 够 使 得 它们 
与 尽力 而 为 流量 分 别 排队 ， 从 而 减 小 丢失 的 风险 。 

当然 ， 如 果 网 络 设备 (如 路 由 器 ) 关心 DSCP， 那 么 标记 发 送 主 机 或 设备 中 的 分 组 才 
有 意义 。 一 般 来 讲 ， 公 共 因 特 网 上 的 路 由 器 忽略 DSCP， 而 为 所 有 分 组 提供 尽力 而 为 的 服 
务 。 然 而 ， 企 业 或 公司 网 络 有 能 力 为 它们 内 部 的 多 媒体 流量 使 用 区 分 服务 ， 而 且 经 常 这 样 
做 。 另 外 ， 甚 至 是 因特网 的 住宅 用 户 也 可 以 通过 在 他 们 因特网 连接 的 出 网 方向 上 使 用 区 分 
服务 来 提高 VoIP 或 其 他 多 媒体 应 用 的 质量 ， 如 图 9-11 所 示 。 这 种 方法 是 有 效 的 ， 因 为 很 

宽带 因特网 连接 都 是 不 对 称 的 ,如果 出 链 路 的 速度 比 人 链 路 低 很 多 〈 即 更 多 的 资源 限 

制 )， 那 么 在 那 条 链 路 上 使 用 区 分 服务 的 资源 分 配 能 够 为 延迟 和 丢失 人 敏感 的 应 用 弥补 质量 
上 的 差异 。 
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图 9-11 用 于 VoIP 应 用 的 区 分 服务 。 区 分 服务 排队 
仅 用 于 从 客户 路 由 器 到 ISP 的 上 行 链 路 


虽然 区 分 服务 在 简单 性 方面 很 有 吸引 力 ， 但 显然 它 不 能 满足 应 用 在 所 有 条 件 下 的 需 


要 。 例 如 ， 假 设 图 9-11 中 的 上 行 带宽 只 有 100kbps， 客 户 试图 部 署 两 个 VoIP MM, B— 
个 部 使 用 64kbps 的 编码 。 显 然 ， 上 行 链 路 现在 超过 了 100%% 负 载 ， 这 会 引起 很 大 的 排队 延 
迟 和 分 组 丢失 。 客 户 路 由 器 有 再 多 聪明 的 排队 方法 也 不 能 解决 这 个 问题 。 

很 多 多 媒体 应 用 的 特性 不 是 试图 将 很 多 呼叫 塞 人 一 个 过 罕 的 管道 ， 而 是 阻塞 一 个 呼叫 
而 让 另 一 个 呼叫 继续 。 也 就 是 ， 最 好 让 一 个 人 成 功 完成 一 次 会 话 ， 而 让 另外 一 个 人 听 到 忙 
信和 号， 而 不 是 让 两 个 呼叫 者 都 同时 经 历 不 可 接受 的 音质 。 我 们 有 时 把 这 种 应 用 称 为 具有 耳 
峭 的 效能 曲线 (steep utility curve)， 意 思 是 当 网 络 提供 的 服务 质量 降低 时 ， 应 用 的 效能 
(作用 〉 会 迅速 下 降 。 多 媒体 应 用 通常 有 这 个 特性 ， 而 很 多 传统 应 用 则 没有 。 例 如 ， 如 果 
延迟 达到 数 小 时 ， 电 子 邮 件 依然 能 工作 得 很 好 

具有 陡峭 效能 曲线 的 应 用 通常 能 很 好 地 适应 一 些 准 入 控制 。 如 果 你 不 能 确定 总 是 有 充 
足 的 资源 可 用 于 支持 应 用 需要 的 负载 ， 那 么 准 入 控制 提供 了 一 种 对 一 些 应 用 说 “不 ”而 允 
许 其 他 应 用 得 到 所 需 资源 的 方法 。 | 

我 们 在 6. 5. 2 市 看 到 一 种 用 RSVP 实行 准 入 控制 的 方法 ， 在 此 简短 地 回顾 一 下 ， 但 使 
用 会 话 控制 协议 的 应 用 提供 了 一 些 其 他 的 准 入 控制 选项 。 这 里 需要 注意 的 一 个 关键 点 是 像 
SIP 或 H. 323 这 样 的 会 话 控 制 协议 经 常 在 呼叫 或 会 话 的 开始 包括 在 一 个 端点 和 另 一 个 实体 
(SIP 代理 或 H. 323 网 关 ) 之 间 的 某 种 消息 交换 。 这 提供 了 一 种 很 方便 的 方式 来 对 不 能 得 
到 足够 资源 的 新 呼叫 说 “不 ”。 

作为 一 个 例子 ， 考 虑 图 9-12 中 的 网 络 。 假 设 从 分 公司 到 总 公司 的 广域网 链 路 具有 足 
以 满足 三 个 并 发 的 使 用 64kbps 编码 的 VoIP 呼叫 的 带宽 。 每 一 部 电话 在 发 出 一 个 呼叫 时 都 
需要 已 经 与 本 地 SIP 代理 或 H. 323 网 关 进 行 了 通信 ， 因 此 对 于 代理 /网 关 来 说 在 链 路 满 负 
载 时 回 送 一 条 消息 告诉 IP 电话 播放 忙 信号 是 很 容易 的 。 代 理 或 网 关 甚 至 能 够 处 理 一 个 特 
定 的 IP 电话 可 能 同时 发 出 多 个 呼叫 的 情况 ， 并 且 可 能 使 用 不 同 的 编码 速度 。 然 而 ， 这 种 
方案 仅 在 没有 其 他 设备 能 够 在 与 网 关 或 代理 通话 以 前 就 使 链 路 超载 的 情况 下 才能 工作 。 区 
分 服务 排队 可 以 确保 用 于 文件 传输 的 PC 不 会 干扰 VoIP 呼叫 。 但 是 假设 在 远程 办 公 室 里 
有 一 些 不 需要 先 与 网 关 或 代理 通话 的 VoIP 应 用 ， 这 样 的 应 用 如 果 能 够 对 其 分 组 设置 适当 
标志 并 放 入 与 现 有 VoIP 流量 相同 的 队列 中 ， 那 么 很 显然 ， 由 于 没有 来 自 代 理 或 网 关 的 反 
僻 ， 会 导致 链 路 达到 超载 点 。 
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图 9-12 ”使 用 会 话 欣 制 协议 的 准 入 控制 


刚才 描述 的 方法 的 另 一 个 问题 是 它 依赖 于 网 关 或 代理 知道 每 一 个 应 用 将 使 用 的 路 径 。 
在 图 9-12 所 示 的 简单 拓扑 中 ， 这 不 是 一 个 大 问题 ， 但 是 在 更 加 复杂 的 网 络 中 ， 这 将 很 快 
变 得 不 可 管理 。 我 们 只 需要 想象 这 样 一 种 情况 : 远程 办 公 室 有 两 个 到 外 部 世界 的 不 同 连 
接 ， 我 们 则 要 求 代 理 或 网 关 不 但 要 理解 SIP H. 323， 还 要 理解 路 由 、 链 路 失败 和 当前 网 
络 状况 。 这 将 很 快 变 得 不 可 管理 。 

我 们 将 刚刚 描述 的 这 种 准 入 控制 称 为 路 径 外 的 (off-path)， 因 为 做 出 准 入 控制 决策 的 
设备 不 在 需要 分 配 资源 的 数据 路 径 上 。 一 个 显然 的 替代 是 路 径 上 的 Conpath) 准 入 控制 ， 
在 IP 网 络 中 提供 路 径 上 的 准 入 控制 的 协议 的 标准 示例 是 RSVP。 我 们 在 6. 5. 2 节 看 到 了 
RSVP 如 何 用 于 确保 沿 着 一 条 路 径 分 配 足 够 的 资源 ， 在 本 节 所 描述 的 那些 应 用 中 使 用 RS- 
VP 也 是 顺理成章 的 。 还 有 一 个 需要 加 入 的 细节 是 准 入 控制 协议 如 何 与 会 话 控制 协议 交互 。 

协调 准 入 控制 〈 或 资源 预 留 ) 协议 与 会 话 控制 协议 的 行为 不 是 火箭 科学 〈 很 困难 的 事 )， 
但 仍然 需要 注意 一 些 细节 。 作 为 一 个 例子 ， 考 虑 两 个 实体 之 间 的 简单 电话 呼叫 。 在 进行 预 留 
前 ， 你 需要 知道 该 呼叫 将 使 用 多 少 带宽 ， 意 思 是 你 需要 知道 将 使 用 什么 编码 。 这 也 意味 着 你 
需要 先 做 一 些 会 话 控制 以 便 交换 关于 两 个 电话 所 支持 的 编码 的 信息 。 然 而 ， 你 不 能 先 完成 所 
有 会 话 控制 ， 因 为 你 不 想 让 电话 在 准 入 控制 决策 前 就 响 铃 ， 以 防 准 和 人 控制 失败 。 图 9-13 说 明 
了 这 种 情况 ， 其 中 SIP 用 于 会 话 控制 ，RSVP 用 于 准 入 控制 决策 〈 在 此 例 中 成 功 执行 )。 
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图 9-13 SIP 信 令 和 资源 预 留 的 协作 


这 里 需要 注意 的 主要 问题 是 会 话 控制 与 资源 分 配 任务 的 交叉 。 实 线 代表 SIP 消息 ， 虚 线 
代表 RSVP 消息 。 注 意 ， 在 该 例 中 ，SIP 消息 直接 在 电话 和 电话 之 间 传 送 〈 即 我 们 没有 显示 任 
何 SIP RED, m RSVP 消息 也 被 中 间 的 路 由 器 处 理 以 检查 是 否 有 足够 的 资源 来 允许 该 呼叫 。 

我 们 先 看 一 下 前 两 条 SIP 消息 中 交换 的 编码 信息 (回忆 一 下 ，SDP 用 于 列举 所 有 可 用 
编码 )。PRACK 是 一 个 “ 预 确认 ”。 一 旦 交换 了 这 些 消息 ， 包 含 对 所 需要 资源 总 量 的 描述 
的 RSVP PATH 消息 就 可 以 作为 在 呼叫 的 两 个 方向 上 进行 资源 预 留 的 第 一 步 而 被 发 送 。 
接 下 来 ， 可 以 返回 RESV 消息 来 实际 预 留 资源 。 一 旦 主 叫 电话 接收 到 RESV 消息 ， 它 可 


以 发 送 一 条 更 新 的 SP 消息 来 报告 已 经 在 一 个 方向 上 预 留 了 资源 这 样 一 个 事实 。 当 被 叫 
电话 收 到 这 两 条 消息 以 及 从 另 一 个 电话 发 来 的 RESV 时 ， 它 就 可 以 振 铃 了 ， 并 告诉 另外 一 
个 电话 现在 两 个 方向 上 都 已 经 预 留 了 资源 OF SDP 消息 )， 还 要 通知 主 叫 电话 它 正 在 振 
铃 。 从 现在 起 ， 正 常 的 SIP 信 令 和 媒体 流 将 继续 下 去 ， 如 图 9-9 所 示 。 

我 们 又 一 次 看 到 构建 应 用 要 求 我 们 理解 不 同 构建 模块 〈 在 本 例 中 是 SIP 和 RSVP) 之 
间 的 交互 。SIP 的 设计 者 实际 上 对 协议 做 了 一 些 修 改 ， 使 得 完成 不 同 工 作 的 协议 之 间 能 
实现 功能 交叉 。 因 此 ， 我 们 再 次 强调 本 书 关注 整个 系统 ， 而 不 是 孤立 于 系统 的 其 他 部 分 来 
看 一 层 或 一 个 组 件 。 


9.3 基础 设施 服务 


有 一 些 协议 对 于 因特网 的 平稳 运行 是 至 关 重 要 的 ， 但 并 不 完全 符合 严格 的 分 层 模型 。 
其 中 一 个 是 域名 系统 (DNS) 不 是 一 个 用 户 通 常 显 式 调 用 的 应 用 ， 而 是 几乎 所 有 其 他 
应 用 都 依赖 的 一 种 服务 。 这 是 因为 名 字 服 务 用 于 将 主机 名 翻译 成 主机 地 址 ， 这 种 应 用 的 存 
在 使 得 其 他 应 用 的 用 户 可 以 通过 名 字 而 不 是 地 址 来 访问 远程 主机 。 换 句 话说， 名 字 服 务 一 
役 锌 其 他 应 用 使 用 ， 而 不 是 人 类 使 用 。 

羽 一 个 关键 功能 是 网 络 管 理 ， 虽 然 普 通用 户 对 筷 不 康 悉 ， 但 它 却 是 系统 管理 员 经 常 进 
行 的 操作 。 网 络 管理 普遍 被 认为 是 联网 的 难题 之 一 ， 并 继续 成 为 大 量 研 究 的 重点 。 下 面 看 
一 下 相关 问题 和 解决 方法 。 








9.3.1 名 字 服 务 (DNS) 


到 目前 为 止 ， 我 们 在 本 书 中 一 直 使 用 地 址 来 标识 主机 。 地 址 虽然 非常 适合 路 由 兹 的 处 
H, 但 对 用 户 并 不 十 分 友好 。 因 此 ,通常 也 为 网 络 中 的 每 台 主 机 分 配 一 个 唯一 的 名 
F (name)。 在 本 节 中 ， 我 们 已 经 看 到 HTTP 的 应 用 层 协 议 使 用 诸如 www. princeton. edu 
的 名 字 。 本 节 描 述 如 何 开 发 一 个 命名 服务 系统 以 便 把 对 用 户 友 好 的 名 字 映 射 成 对 路 由 器 友 
好 的 地 址 。 由 于 这 种 服务 可 使 其 他 应 用 自由 地 通过 名 字 而 不 是 地 址 来 识别 主机 ， 所 以 它 往 
往 是 在 网 络 上 实现 的 第 一 个 应 用 程序 。 名 字 服 务 有 时 也 称 为 中 间 件 (middleware)， 因 为 
它 填 补 了 应 用 程序 与 底层 网 络 之 间 的 间 际 。 | 

主机 名 在 两 个 重要 的 方面 不 同 于 主机 地 址 。 第 一 ， 它 们 通常 是 可 变 长 且 容 易 记 忆 的 ， 
因此 很 容易 被 人 们 记 住 。 (与 之 对 照 的 固定 长 度 的 数字 地 址 则 更 易于 路 由 器 的 处 理 ,， 第 
二 ， 主 机 名 通常 不 包含 能 够 帮助 网 络 定位 主机 的 信息 〈 即 分 组 的 路 由 走向 ); 与 之 相 比 ， 
地 址 有 时 则 有 内 内 的 路 由 选择 信息 ， 扁 平 Cflat) 地 址 〈 没 有 将 地 址 划分 成 各 个 组 成 部 分 ) 
属于 例外 。 

在 详细 介绍 在 网 络 中 如 何 命名 主机 之 前 ， 我 们 首先 介绍 一 些 基 本 术语 。 首 先 ， 命 名 空 
间 (name space) 定义 所 有 可 能 的 名 字 的 集合 。 命 名 空间 可 以 是 扁平 的 〈flat) (名 字 中 不 
划分 各 个 部 分 )， 也 可 以 是 分 层 的 〈hierarchical) (UNIX 文件 名 是 一 个 明显 的 例子 ) 。 第 
二 ， 命 名 系统 维护 一 组 和 名字 到 值 的 绑 定 〈binding)。 当 我 们 提供 一 个 名 字 后 ， 命 名 系统 可 
以 返回 一 个 我 们 希望 的 值 ， 在 多 数 情 况 下 是 一 个 地 址 。 最 后 ，s 解 析 机 制 (resolution mech- 
anism) 是 这 样 一 个 过 程 : 当 以 一 个 名 字 调 用 它 时 ， 返 回 相 应 的 但 。 名 字 服 务 器 (name 
server) 是 网 络 中 可 用 的 解析 机 制 的 一 个 特定 的 实现 ， 并 能 用 发 送 消息 的 方式 来 查询 它 。 

因为 因特网 很 大 ， 所 以 它 有 一 个 开发 得 非常 好 的 命名 系统 域名 系统 (Domain 








Name System, DNS). Alb, RITH DNS 作为 讨论 命名 主机 问题 的 框架 。 注 意 因 特 网 并 
不 是 一 直 使 用 DNS。 早期， 因特网 仅仅 有 几 百 台 主 机 ， 那 时 有 一 个 称 为 网 络 信息 中 心 
(Network Information Center, NIC) 的 中 央 权 威 机 构 维 护 着 一 个 名 字 到 地 址 绑 定 的 己 平 
表 ， 此 表 称 为 hosts. txt。 无 论 何 时 任何 站 点 想 要 加 一 个 新 主机 到 因特网 上 ， 站 点 管理 者 都 
会 将 新 主机 的 名 字 / 地 址 对 用 电子 邮件 发 给 NIC。 这 个 信息 被 人 工 加 到 表 Chosts. txt) 中 ， 
每 隔 几 天 后 就 把 修改 过 的 表 发 给 各 个 站 点 一 次 ， 然 后 每 个 站 点 的 系统 管理 员 将 表 安 装 到 站 
点 的 每 台 主 机 上 。 和 名 字 解 析 简单 地 用 一 个 过 程 来 实现 ， 即 在 表 的 本 地 备份 中 找到 主机 名 ， 
然后 返回 相应 的 地 址 。 

训 无 疑问 ， 随 着 因特网 主机 数目 的 增长 ， 使 用 hosts. txt 方法 的 名 字 服 务 不 再 有 效 。 
因此 在 20 世纪 80 年 代 中 期 ， 域 名 系统 开始 投入 使 用 。DNS 采用 分 层 的 命名 空间 而 不 是 届 
平 的 命名 空间 ， 并 且 实 现 此 命名 空间 的 绑 定 表 被 划分 为 不 相交 的 分 布 在 因特网 中 的 子 表 。 
可 通过 网 络 查询 名 字 服 务 需 上 的 可 用 子 表 。 

因特网 中 发 生 的 事情 是 : 用户 提供 一 合 

















主机 名 给 应 用 程序 〈 可 能 嵌入 在 一 个 复合 名 ee ee 
字 中 ， 如 电子 邮件 地 址 或 URL)， 这 个 应 用 zadi SS a] 
程序 启用 命名 系统 将 名 字 翻 译 成 一 台 主 机 地 | 服务 器 | d EF] 
址 。 然 后 应 用 程序 通过 某 个 传输 协议 〈 如 192.12.69.5 ee 4 
TCP) 根据 主机 的 IP 地 址 打开 一 个 到 这 人 台 主 i To | 
机 的 连接 。 这 种 情况 如 图 9-14 所 示 (发 送 电 Per 
“ 子 邮 件 的 情况 ) 。 昌 然 该 图 中 的 名 字 解 析 看 上 Eo 5 
去 很 简单 ， 但 我 们 将 看 到 它 还 包括 更 多 内 容 ， op | 
1. 域名 的 分 层 结构 TE 
DNS JARMINA LAT PB o E BRE, Araz 


1~5 显示 处 理 过 程 中 步 又 的 顺 
名 空间 。 与 UNIX 文件 名 不 同 的 是 (UNIX 显示 处 理 过 程 中 步骤 的 顺序 


文件 名 是 将 名 字 的 组 成 部 分 从 左 到 右 用 斜 线 分 隔 ) ，DNS 名 字 从 右 向 左 进行 处 理 ， 并 用 圆 
点 分 隔 。 (尽管 域名 是 从 右 向 左 处 理 ， 但 人 们 “ 读 ” 域 名 时 仍然 是 从 左 向 右 。) 例如， 一 个 
主机 域名 的 例子 是 cicada. cs. princeton. edu。 注 意 ， 我 们 说 过 域名 用 于 命名 因特网 对 象 ， 
意思 是 DNS 并 不 严格 她 用 来 将 主机 名 映射 到 主机 地 址 ， 更 精确 地 说 ，DNS 将 域名 映射 为 
值 。 目 前 ， 我 们 假设 这 些 值 是 IP 地址， 本 节 的 稍 后 部 分 将 重新 讨论 这 个 问题 。 

和 UNIX 的 文件 分 层 结构 一 样 ，DNS 的 分 层 结 构 也 可 看 作 一 棵 树 ， 树 中 的 每 个 节点 
对 应 一 个 域 ， 树 的 叶子 对 应 被 命名 的 主机 。 图 9-15 给 出 域名 分 层 结 构 的 一 个 例子 。 注 意 ， 
我 们 并 不 指定 术语 域 (domain) 的 任何 语义 ， 只 是 简单 地 认为 它 是 定义 其 他 名 字 的 一 个 上 
下 文 。@ | 

事实 上 ， 当 域名 分 层 结构 刚 发 展 到 采用 什么 惯例 来 支配 从 分 层 结构 的 顶部 分 发 名 字 
时 ， 曾 引发 了 大 量 的 讨论 。 不 必 详 细 讨 论 ， 我 们 就 可 以 注意 到 层次 结构 的 第 一 层 的 范围 并 
不 大 。 有 每 个 国家 的 域 ， 再 加 上 “6 个 大 域 ”，. edu、. com、. gov、. mil、.org M. net, 
这 6 个 域 都 以 美国 为 基础 (因特网 和 DNS 是 在 美国 发 明 的 )。 例 如 ， 只 有 美国 的 教育 机 构 




















O 令 人 困惑 的 是 词语 域 《domain) 也 用 在 因特网 路 由 中 ,但 其 含义 与 在 DNS 中 的 含义 不 同 ， 大 体 上 与 术语 自治 


系统 (autonomous system) 等 价 。 
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7 图 9-15 域名 层次 结构 示例 


本 以 注册 二 个 . edu 域名 。 最 近 ， 顶 级 域 已 经 被 扩展 了 ， 部 分 原因 是 为 了 满足 . com 域名 的 
大 量 和 需求 。 新 的 顶级 域 包括 . biz、. coop 和 .info。 另 一 个 近期 发 展 是 支持 用 非 拉 丁字 符 集 
表示 的 域名 ， 如 阿拉 伯 文 和 中 文 。 

2. 名字 服务 需 

a oe 吉 构 只 是 一 种 抽象 。 我们 现 将 注意 力 转 癌 分 层 结构 在 实际 中 如 何 实现 

个 问题 。 第 一 步 将 分 层 结构 分 为 子 树 ， 叫 作 区 域 (zone) Kl 9-16 显示 了 如 何 将 图 9-15 
ih ene bee 每 个 区 域 可 看 作对 应 于 负责 分 层 结构 中 一 部 分 的 某 个 管理 权 
威 。 例 如 ， 分 层 结构 的 顶层 可 以 形成 一 个 区 域 ， 由 因特网 名 字 与 编号 分 配 机 构 (nternet 
Corporation for Assigned Name and Numbers, ICANN) 来 管理 。 在 它 下 面 是 一 个 对 应 于 
普林斯顿 大 学 的 区 域 。 在 这 个 区 域内 ， 有 些 系 不 想 承 担 管理 分 层 绪 构 的 责任 〈 因 此 它们 留 
在 大 学 级 区 域 中 )， 而 男 一 些 系 ， 如 计算 机 科学 系 ， 管 理 它们 目 己 的 系 级 区 域 。 
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区 域 的 相关 性 是 它 对 应 于 DNS 实现 的 
基本 单元 一 一 名 字 服 务 器 。 特 别 是 ， 每 个 
区 域 中 包含 的 信息 被 实现 在 两 个 或 多 个 名 
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字 服 务 器 上 。 而 每 个 名 字 服 务 器 是 通过 因 和 

特 网 可 访问 的 一 个 程序 。 客 户 向 名 字 服务 igi 
器 发 出 请 求 ， 名 字 服 务 器 响应 所 请 求 的 信 ae, ——_ 
。 有 时 ， 响 应 信息 包含 用 户 想 要 得 到 的 [Princeton | 






名字 服务 器 | 


最 终 回答 ， 而 有 时 响应 信息 包含 指向 另 一 JARSE 


个 服务 器 的 指针 ， 客 户 端 由 此 继续 向 下 一 / 
个 服务 器 提出 请 求 。 这 样 ， 从 实现 的 角度 ee 
来 看 ， 更 确切 地 说 ，DNS 可 看 作 一 个 名 字 SSS 
服务 器 的 分 层 结 构 ， 而 不 是 域 的 分 层 结构 ， 图 9-17 ”名字 服务 器 的 分 层 结 构 


名 字 服务 器 | 
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图 9-17 给 出 了 解释 。 

注意 ， 为 了 实现 备份 ， 每 个 区 域 在 两 个 或 多 个 名 字 服 务 器 上 实现 ， 这 样 ， 即 使 一 个 名 
字 服 务 器 出 了 故障 ， 仍 然 可 以 获得 信息 。 另 一 方面 ， 一 个 给 定 的 名 学 服务 器 可 以 实现 多 个 
区 域 。 

每 个 名 字 服务 器 以 次 源 记 录 (resource record) 集合 的 形式 来 实现 区 域 信息 。 本 质 上 ， 
一 个 资源 记录 是 一 个 名 字 到 值 的 绑 定 ， 或 者 更 确切 地 说 ， 是 一 个 包括 以 下 字段 的 5 元 组 : 

(Name, Value, Type, Class, TTL) 

Name 和 Value 字段 的 内 容 顾 名 思 义 ， 而 Type 字段 说 明 值 应 如 何 解释 。 例 如 ，Type 一 A 
表明 Value 是 一 个 IP 地址 。 所 以 ， A 类 型 记录 实现 了 我 们 所 i 及 想 的 名 字 到 地 址 的 映射 。 
其 他 记录 类 型 包括 : 

。 NS: Value 字段 给 出 运行 名 字 服 务 器 的 一 台 主 机 的 域名 ， 该 主机 知道 首 如 何 解析 指 
定 域 中 的 域名 。 

CNAME; Value 字段 给 出 一 个 特定 主机 的 规范 名 ， 用 于 定义 别名 。 

。 MX: Value 字段 给 出 运行 邮件 服务 器 的 主机 的 域名 ， 该 服务 器 接收 来 目 指定 域 的 

消息 。 

Class 字段 允许 除 NIC 以 外 的 其 他 实体 定义 有 用 的 记录 类 型 。 至 今 ， 唯 一 广泛 使 用 的 
Class 是 由 因特网 使 用 的 Class， 记 为 IN。 最 后 ，TTL 字段 指出 这 个 资源 记录 的 有 效 时 间 。 
它 被 服务 器 用 来 缓存 来 自 其 他 服务 器 的 资源 记录 ， 当 TTL 到 期 后 ， 服 务 器 必须 从 它 的 组 
存 中 清除 这 个 记录 。 

为 了 更 好 地 理解 资源 记录 如 何 表示 域 层次 中 的 信息 ， 考 虑 下 列 从 图 9-5 的 分 层 结构 中 
抽取 的 一 些 例子 。 为 了 简化 这 个 例子 ， 我 们 忽略 TTL 字段 并 且 只 给 出 实现 这 个 区 域 的 名 
字 服 务 器 中 的 相关 信息 

首先 ， 根 名 字 服 务 器 为 每 个 顶级 域名 服务 器 (Top-Level Domain, TLD) 包含 一 个 
NS 记录 ， 它 可 以 标识 为 DNS 分 层 结 构 中 的 一 部 分 (本 例 中 的 .edu 和 .com) 提供 查询 解 
析 的 服务 器 。 它 还 有 一 个 A 记录 用 来 将 该 名 字 翻 译 为 相应 的 IP 地 址 。 一 起 使 用 这 两 条 记 
录 可 有 效 地 实现 一 个 从 根 名 字 服 务 右 到 每 个 顶级 域名 服务 絮 的 指针 。 


(edu, a3.nstld.com, NS, IN) 
(a3.nstld.com, 192.5.6.32, A, IN) 
(com, a.gtld-servers.net, NS, IN) 

_ (a.gtid-servers.net, 192.5.6.30, A, IN) 


@ 


妓 结 构 向 下 走 一 层 ，a3. nstld. com 服务 器 有 . edu MICH, WF: 


(princeton.edu, dns.princeton.edu, NS, IN) 


Mckee 128.112.129.15, A, IN) 


在 这 种 情况 下 ， 我 们 得 到 分 层 结构 中 负责 princeton. edu 部 分 的 名 字 服 务 器 的 NS 记录 和 A 
记录 。 这 个 服务 器 可 能 会 直接 解析 一 些 查询 (如 ， 对 email. princeton. edu 的 查询 )， 而 把 
其 他 查询 重 定 向 到 其 至 位 于 分 层 结 构 中 另 一 层 中 的 一 个 服务 器 (如 ， 对 penguins. 


cs. princeton. edu 的 查询 ) 。 


(email.princeton.edu, 128.112.198.35, A, IN) 
(penguins.cs.princeton.edu, dns1.cs.princeton.edu, NS; IN) 
(dns1.cs.princeton.edu, 128.112.136.10, A, IN) 


最 后 ， 第 三 级 名 字 服 务 器 ， 例 如 由 域 cs. princeton. edu 管理 的 名 字 服 务 器 ， 包 含有 域 
内 所 有 主机 的 A 类 记录 。 它 也 可 以 为 每 一 台 主 机 都 定义 一 个 别名 (CNAME 记录 ) 集合 。 
别名 有 时 只 是 便于 计算 机 处 理 的 《〈 如 更 短 的 ) 名 字 ， 但 它们 也 能 用 来 提供 一 个 间接 层 。 例 
Ol, www. cs. princeton. edu 是 名 为 coreweb. cs. princeton. edu 的 主机 的 别名 ， 这 人 允许 站 点 
的 Web 服务 需 在 不 影响 远程 用 户 的 情况 下 转移 到 其 他 机 器 上 。 远 程 用 户 可 简单 地 继续 使 
用 该 别名 而 不 考虑 当前 哪 台 计算 机 运行 着 该 域 的 Web 服务 器 。 邮 件 交 换 (MX) 类 记录 对 
邮件 应 用 有 同样 的 用 途 ， 它 允许 管理 者 改变 代表 本 域 接收 邮件 的 主机 而 不 必 改 变 每 个 人 的 
邮件 地 址 。 


(penguins.cs.princeton.edu, 128.112.155.166, A, IN) 
(www.cs.princeton.edu, coreweb.cs.princeton.edu, CNAME, IN) 
(coreweb.cs.princeton.edu, 128.112.136.35, A, IN) 
(cs.princeton.edu, mail.cs.princeton.edu, MX, IN) 
(mail.cs.princeton.edu, 128.112.136.72, A, IN) 


注意 ， 虽 然 可 以 为 任意 类 型 的 对 象 定义 资源 记录 ， 但 是 通常 DNS 用 于 命名 主机 E, 
括 服 务 器 ) 和 站 点 。 它 不 用 于 命名 个 人 或 其 他 像 文 件 和 目录 之 类 的 对 象 ， 通 常用 其 他 命名 
系统 来 识别 这 样 的 对 象 。 例 如 ，X. 500 是 一 个 ISO 命名 系统 ， 设 计 它 的 目的 是 为 了 更 容易 
识别 个 人 。 它 允许 你 通过 给 出 一 组 属性 : 和 名字、 头衔、 电话 号 码 、 邮 政 地 址 等 来 命名 个 
A. X. 500 被 证 明 过 于 繁琐 ， 并 且 在 某 种 意义 上 ， 它 已 经 被 现存 的 Web 上 强 有 力 的 搜索 
引 警 所 取代 ， 但 它 最 终 发 展 成 轻 量 目录 访问 协议 (Lightweight Directory Access Protocol, 


LDAP), LDAP Æ X. 500 的 一 个 子 集 ， 最 初 被 设计 为 X. 500 的 PC 前 端 。 今 天 ， 它 作为 一 
个 了 解 用 户 信息 的 系统 主要 流行 于 企业 中 。 
3. 名 字 解 析 


给 出 名 字 服 务 器 的 分 层 结构 后 ， 我 们 现在 来 考虑 客户 如 何 让 这 些 服 务 器 解析 域名 的 问 
题 。 为 了 解释 其 基本 思想 ， 假 设 客户 想 要 解析 与 上 一 小 节 给 出 的 服务 器 集合 有 关 的 名 字 
penguins. cs. princeton. edu。 客 户 首先 发 送 一 个 包含 这 个 名 字 的 查询 给 根 服 务 器 (你 将 在 
下 面 看 到 ， 这 在 实际 中 是 很 少 发 生 的 ， 但 对 于 目前 解释 基本 操作 来 说 ， 已 经 足够 了 ) 。 根 
服务 器 不 能 匹配 整个 和 名字， 只 返回 一 个 它 所 能 提供 的 最 佳 匹配 ， 即 指向 TLD 服务 器 
a3. nstld. com 的 edu 的 NS 记录 。 服 务 器 也 返回 与 此 记录 相关 的 所 有 记录 ， 在 这 种 情况 
下 ， 返 回 的 是 a3. nstld. com 的 A 类 记录 。 客 户 没 有 得 到 想 要 的 答案 ， 接 着 发 送 同样 的 查 
询 给 IP 主机 为 192. 5. 6. 32 的 名 字 服 务 器 。 这 个 服务 器 也 不 能 死 配 整个 名 字 ， 因 此 返回 
princeton. edu 域 的 NS 类 记录 和 相应 的 A 类 记录 。 客 户 再 一 次 发 送 同样 的 查询 给 IP 主机 
为 128. 112. 129. 15 的 服务 器 ， 这 次 得 到 cs. princeton. edu 域 的 NS 类 记录 和 相应 的 A 类 
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记录 。 此 时 到 达 了 能 够 完全 解析 该 查询 的 服务 器 。 最 后 ， 问 服务 器 128.112. 136.10 发 送 
查询 ， 返 El penguins. cs. princeton. edu 的 A 类 记录 ， 客 户 得 知 对 应 的 IP 地 址 
是 128.112.155.166, | 

这 个 例子 仍 留 下 两 个 有 关 解 析 人 处 理 的 问题 没有 回答 。 第 一 个 问题 是 ， 客 户 如 何 首 先 确 
定 根 服务 器 的 位 置 ， 或 者 说 ， 怎 样 解析 那 台 知道 如 何 解析 这 些 名 字 的 服务 器 的 名 字 ? 在 任 
何 命 名 系统 中 ， 这 都 是 一 个 最 基本 的 问题 ， 答 案 是 必须 以 某 种 方式 启动 系统 。 在 这 种 情况 
下 ， 一 个 或 多 个 根 服务 器 的 名 字 到 地 址 的 映射 是 众所周知 的 ， 就 是 通过 某 种 名 字 系 统 以 外 
的 方式 发 布 。 

然而 实际 中 ， 并 不 是 所 有 客户 都 知道 根 服务 器 。 相 反 ， 运 行 在 因特网 的 每 一 台 主 机 上 
的 客户 程序 在 初始 化 时 都 设置 了 一 个 本 地 (local) 名 字 服 务 器 地 址 。 例 如 ，Princeton 大 
学 计算 机 科学 系 的 所 有 主机 都 知道 名 字 服 务 器 是 dnsl. cs. princeton. edu。 这 个 本 地 名 字 服 
务 器 又 有 一 个 或 多 个 根 服 务 妖 的 资源 记录 ， 例 如 : 





‘root’, a.root-servers.net, NS, IN ) 
(a.root-servers.net, 198.41.0.4, A, IN) 
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的 客户 查询 远程 服务 器 。 这 种 客户 /服务 需 之 间 的 交互 结果 如 图 9-18 所 示 。 这 种 模式 的 一 
个 优点 是 因特网 中 的 所 有 主机 不 必 保留 最 新 的 根 服务 器 的 位 置信 息 ， 而 只 是 服务 需 必 须知 
道 根 服务 器 的 情况 。 第 二 个 优点 是 本 地 服务 器 可 以 看 到 由 所 有 本 地 客户 发 出 查询 而 返回 的 
应 答 。 本 地 服务 器 缓存 Cache) 这 些 应 答 ， 有 时 候 不 用 出 网 就 能 够 解决 未 来 的 查询 。 由 
远程 服务 器 返回 的 资源 记录 的 TTL 字段 指出 每 个 记录 能 被 可 靠 缓存 的 时 间 期 限 。 这 种 组 
存 机 制 也 可 以 用 于 分 层 结构 的 上 层 ， 以 便 减 小 根 服务 釉 和 TLD IRE AE Hi 
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图 9-18 实际 中 的 名 字 解 析 ， 数 字 1 ~ 10 显示 处 理 步 又 的 顺序 
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第 二 个 问题 是 当 用 户 提 交 一 个 部 分 名 字 (如 penguins) 而 不 是 完整 域名 (如 pen- 
guins. cs. princeton. edu) 时 系统 如 何 工 作 。 答 案 是 将 客户 程序 配置 为 主机 所 在 的 本 地 域 
(如 cs. princeton. edu) ， 在 发 出 查询 之 前 将 其 追加 到 任何 一 个 简单 名 字 之 后 。 

结论 现在 ， 我们 清楚 了 三 个 不 同 层 次 的 标识 符 (域名 、IP 地 址 和 物理 网 络 地 

址 ) 并 且 一 层 标识 符 到 另 一 层 标 识 符 的 映射 发 生 在 网 络 体 系 结构 的 不 同 mE, A 

先 ， 当 用 户 与 应 用 程序 交互 时 指明 域名 。 第 二 ， 应 用 程序 令 DNS 将 这 个 名 字 翻 

译 为 一 个 卫 地 址 ， 放 在 每 个 数据 报 中 的 是 IP 地 址 而 不 是 域名 。 (另外 ， 这 个 翻 

译 过 程 涉及 通过 因特网 发 送 IP 数据 报 ， 但 是 这 些 数据 报 寻 址 到 运行 名 字 服 务 器 

的 主机 ， 而 不 是 最 终 目 标 ) 。 第 三 ，IP 在 每 台 路 由 器 上 执行 转发 ， 这 常常 意味 着 

将 一 个 TP 地址 映射 为 另 一 个 IP 地 址 ， 即 将 最 终 目 标 地 址 映射 为 下 一 跳 路 由 器 的 

地 址 。 最 后 ，IP 使 用 ARP 将 下 一 跳 路 由 器 的 IP 地 址 翻译 成 机 器 的 物理 地 址 ， 下 

一 跳 可 能 是 最 终 目 标 也 可 能 是 中 间 路 由 器 。 在 物理 网 络 上 发 送 的 帧 的 首部 中 有 这 

些 物 理 地 址 。 





命名 惯例 

我 们 对 于 DNS 的 描述 着 重 于 基本 机 制 (mechanism)， 即 多 个 服务 器 上 的 分 层 结 构 恕 
何 划 分 及 解析 过 程 如 何 工 作 。 同 样 值得 注意 但 没什么 技术 性 的 问题 是 决定 这 些 机 制 中 使 用 
的 命名 惯例 (convention)。 例 如 ， 所 有 美国 大 学 都 在 edu 域内 是 一 个 惯例 ， 而 英国 的 大 学 
则 在 uk (United Kingdom， 联 合 王 国 ) 域内 的 ac (academic， 学 术 ) FRA, 

要 知道 有 时 候 惯例 的 定义 并 没有 任何 人 做 明确 的 决定 。 例 如 ， 按 惯例 一 个 站 点 将 为 其 
提供 邮件 交换 服务 的 主机 隐藏 在 MX 记录 后 。 另 一 个 可 采用 的 惯例 是 将 邮件 送 给 user@ 
mail. cs. princeton. edu， 很 像 我 们 期 望 在 ftp. cs. princeton. edu 上 找到 站 点 的 一 个 公共 
FTP 目录 和 在 www. cs. princeton. edu 上 找到 它 的 WWW 服务 器 。 

惯例 也 存在 于 本 地 级 别 的 命名 中 ， 组 织 根据 某 种 统一 的 规则 集合 为 其 计算 机 命名 。 在 
因特网 中 ， 主 机 名 venus, saturn 和 mars 非常 普遍 ， 找 到 公共 的 命名 惯例 并 不 难 。 然 而 ， 
一 些 主机 的 命名 惯例 更 有 想象 力 。 例 如 ， 一 个 站 点 将 它 的 计算 机 命名 为 up, down, 
crashed, rebooting 等 ， 结 果 会 造成 像 “rebooting has crashed” R “up is down” ŁA 
迷惑 的 说 法 。 当 然 ， 也 有 些 名 字 没 有 什么 想象 力 ， 比 如 那些 以 整数 命名 的 机 器 。 


9.3.2 网 络 管理 (SNMP) 


无 论 从 网 络 所 涉及 的 节点 数 来 说 ， 还 是 从 能 够 运行 在 任何 一 个 节点 上 的 协议 族 来 说 ， 
网 络 都 是 一 个 复杂 的 系统 。 即 使 只 关心 在 单一 管理 域 中 的 节 反 ， 比 如 一 个 校园 网 ， 那 也 可 
能 有 几 十 人 台 路 由 器 和 成 百 甚 至 上 千 台 主机 需要 跟踪 。 如 果 你 想 对 任何 一 个 节点 上 的 诸如 地 
址 转换 表 、 路 由 表 、TCP 连接 状态 等 状况 都 进行 维护 和 操作 ， 管 理 所 有 这 些 信息 的 前 景 
{RRS ERS AE. | | : 

我 们 很 希望 了 解 在 不 同 节点 上 各 种 协议 的 状态 。 例 如 ， 你 可 能 想 要 监测 重组 失败 的 IP 
数据 报 的 数目 ， 以 便 决 年 是 否 需要 调整 碎片 收集 程序 用 于 收集 部 分 组 装 的 数据 报 的 超时 时 
间 。 在 另 一 个 例子 中 ， 你 可 能 想 要 追踪 各 种 节点 上 的 负载 〈 如 发 送 或 接收 分 组 的 数目 )， 





以 便 决定 是 否 需 要 在 网 络 中 加 入 新 的 路 由 器 或 链 路 。 当 然 ， 你 也 必须 监视 硬件 故障 和 软件 
异常 反应 。 | 
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点 是 分 布 式 的 ， 所 以 我 们 仅 有 的 实际 选择 是 使 用 网 络 管理 网 络 。 这 意味 着 我 们 需要 一 种 协 
议 ， 它 允许 读 (可 能 还 需要 ) 写 不 同 网 络 节点 上 的 各 种 状态 信息 。 用 于 此 目的 的 使 用 最 广 
泛 的 协议 是 简单 网 络 管理 协议 (Simple Network Management Protocol, SNMP). 

SNMP 本 质 上 是 一 种 专用 的 请 求 / 响 应 协议 ， 它 支持 两 种 请 求 消息 : GET 和 SET. Bi 
者 用 于 从 某 个 节点 上 获取 状态 ， 而 后 者 用 于 把 新 状态 存储 到 某 个 节点 上 。 (CNMP 也 支持 
第 三 种 操作 GET-NEXT， 我 们 会 在 下 面 解释 它 .) 下面 重 点 讨论 GET 操作 ， 因 为 它 是 使 
用 最 频繁 的 一 种 操作 。 

SNMP 的 使 用 方法 很 简单 ， 系统 管理 员 与 显示 网 络 信息 的 客户 程序 进行 交互 。 这 个 客 
户 程序 通常 有 图 形 界 面 。 你 可 以 认为 这 个 界面 扮演 着 与 Web 浏览 器 相同 的 角色 。 只 要 管 
理 员 选 定 了 他 想 看 的 特定 信息 ， 客 户 程序 就 使 用 SNMP 向 被 询问 的 那个 厄 扎 请求 所 要 的 
信息 (SNMP 运行 在 UDP 之 上 ) 。 运 行 在 那个 节点 上 的 SNMP 服务 器 接收 请 求 ， 找 到 恰 
当 的 信息 ， 并 将 它 返回 到 客户 程序 ， 然 后 再 显示 给 用 户 。 

这 种 特别 简单 的 场景 中 仅 存 在 一 个 复杂 的 问题 : 客户 怎样 正确 指明 它 想 要 哪些 信息 ， 
同样 ， 服 务 器 如 何 知 道 读 出 内 存 中 的 哪个 变量 来 满足 这 个 请 求 ? 答案 是 SNMP 依赖 于 一 
个 称 为 管理 信息 库 (Management Information Base, MIB) 的 配套 规范 。 这 个 MIB 定义 
了 一 些 特殊 的 信息 (MIB 变量 (variable))， 你 可 以 从 网 络 节 点 上 检索 它们 。 

当前 的 MIB 版 本 称 为 MIB-I1T， 它 将 变量 组 织 在 10 个 不 同 的 组 Cgroup) 中 。 你 将 发 
现 大 部 分 组 与 本 书 描述 的 某 个 协议 对 应 ， 并 且 每 组 内 定义 的 几乎 所 有 变量 看 上 去 都 很 敦 
悉 。 例 如 : 

。 System: 整个 系统 (节点 ) 的 通用 人 参数， 包括 节点 定位 在 何 地 、 它 已 局 动 多 长 时 

间 和 系统 的 名 字 。 

。 Interfaces: 关于 连接 到 这 个 节点 上 的 所 有 网 络 接口 GERAD 的 信息 ， 比 如 每 个 

接口 的 物理 地 址 、 每 个 接口 上 已 发 送 和 接收 了 多 少 分 组 。 

o Address translation， 关 于 地 址 解析 协议 (Address Resolution Protocol, ARP) 的 

信息 ， 特 别 是 它 的 地 址 转换 表 的 内 容 。 

。 IP; 与 IP 相关 的 变量 ， 包 插 它 的 路 由 表 、 它 已 成 功 转发 了 多 少数 据 报 和 重组 数据 

报 的 统计 。 它 还 包括 因 某 种 原因 而 使 IP 丢弃 数据 报 的 次 数 。 
。 TCP; 关于 TCP 连接 的 信息 ， 如 被 动 打 开 和 主动 打开 连接 的 次 数 、 重 置 次 数 、 超 
时 次 数 、 默 认 超 时 设置 等 。 只 要 连接 存在 ， 每 个 连接 的 信息 就 持续 存在 。 

e UDP: 关于 UDP 通信 量 的 信息 ， 包 括 已 发 送 和 接收 到 的 UDP 数据 报 的 总 数 。 

A ICMP, EGP 和 SNMP 自身 的 组 。 第 10 组 用 于 不 同 的 媒体 。 

再 回 到 这 样 一 个 话题 ， 即 客户 需要 确切 指出 它 想 从 节点 得 到 什么 信息 。MIB 变量 列表 
仅 完 成 了 一 半 的 工作 ， 这 留 下 两 个 问题 。 第 一 ， 我 们 需要 精确 的 语法 ， 使 客户 用 来 说 明 想 
要 取 哪 些 MIB 变量 。 第 二 ， 我 们 需要 一 个 对 服务 器 返回 秆 的 精确 表示 。 这 两 个 问题 都 使 
用 ASN. 1 来 解决 。 : 

首先 考虑 第 二 个 问题 。 正 如 我 们 已 经 在 第 7 章 中 看 到 的 ，ASN. 1/BER 为 不 同 的 数据 
类 型 定义 表示 法 ， 比 如 整数 。MIB 定义 每 个 变量 的 类 型 ， 然 后 当 它 要 在 网 上 传输 时 ， 用 
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ASN. 1/BER 对 包含 在 这 个 变量 中 的 值 进行 编码 。 至 于 第 一 个 问题 ，ASN. 1 也 定义 了 一 种 
对 象 识 别 方 案 ， 这 种 识别 系统 没有 在 第 7 章 中 描述 。MIB 使 用 该 识别 系统 为 MIB 中 的 每 
一 个 变量 指定 了 一 个 全 局 唯一 的 标识 符 。 这 些 标识 符 用 圆 点 “.” 记 法 给 出 ， 类 似 域名 。 
例如 : 1.3.6.1.2.1.4.3 是 IP 相关 的 MIB 变量 ipInReceives 的 唯一 ASN.1 标识 符 ， 该 变 
量 记录 本 节点 接收 的 IP 数据 报 的 数目 。 在 本 例 中 ， 前 缀 1. 3. 6.1.2.1 标识 MIB 数据 库 
GEE, ASN. 1 对 象 ID 适用 于 世界 上 所 有 可 能 的 对 象 ) ，4 对 应 于 IP 组 ， 最 后 的 3 表示 该 
组 中 的 第 三 个 变量 。 | 

这 样 ， 网 络 管理 按 下 述 步 又 进 行 工 作 。SNMP 客户 将 需要 的 MIB 变量 的 ASN. 1 标识 
符 放 入 请 求 消息 ， 并 发 送 此 消息 到 服务 器 。 服 务 器 则 将 该 标识 符 映 射 到 一 个 本 地 变量 〈 即 
到 一 个 存储 着 该 变量 值 的 内 存 位 置 )， 取 回 该 变量 的 当前 值 ， 并 且 使 用 ANS. 1/BER 编码 
该 值 后 返回 给 客户 。 

还 有 最 后 一 个 细节 。 许 多 MIB 变量 是 表 或 者 结构 ， 这 样 的 组 合 型 变量 说 明了 使 用 
SNMP GET-NEXT 操作 的 理由 。 当 该 操作 应 用 到 一 个 特定 的 变量 ID 时 ， 返 回 变量 的 值 和 
下 一 个 变量 的 也， 如 表 的 下 一 项 或 结构 中 的 下 一 个 字段 。 这 有 助 于 客户 “遍历 ” 表 或 结 
构 的 所 有 元 素 。 


9. 4 EA 


起 初 ， 因 特 网 采用 了 清晰 的 模型 ， 即 网 络 中 的 路 由 副 负 责 从 源 回 目的 地 转发 分 组 ， 而 
应 用 程序 运行 在 连接 到 网 络 边缘 的 主机 上 。 本 章 前 两 节 讨 论 的 客户 /服务 器 的 应 用 范例 正 
符合 这 种 模型 。 

然而 在 最 近 几 年 ， 分 组 转发 (packet forwarding) 和 应 用 处 理 (application process- 
ing) 之 间 的 区 别 变 得 不 太 清 晰 。 新 的 应 用 被 分 布 到 因特网 上 ， 在 许多 情况 下 ， 这 些 应 用 
做 出 自己 的 转发 决定 。 有 时 ， 通过 扩展 传统 的 路 由 器 和 交换 机 支持 一 定数 量 的 特定 应 用 处 
理 ， 可 以 实现 这 些 新 的 混合 型 应 用 。 例 如 ， 所 谓 的 七 层 交 换 机 Clevel-7 switch) 位 于 服务 
器 群 前 面 ， 并 根据 请 求 的 URL 将 HTTP 请 求 转发 至 特定 服务 器 。 然 而 ， AAMA (over- 
lay network) 作为 把 新 功能 引入 因特网 的 可 选 机 制 迅 速 兴 起 。 

你 可 以 把 一 个 覆盖 看 成 一 个 在 底层 网 络 之 上 实现 的 逻辑 网 络 。 根 据 这 个 定义 ， 因 特 网 
本 身 就 是 建立 在 老 电话 网 链 路 之 上 的 覆盖 网 络 ， 事 实 的 确 如 此 。 图 9- 19 描述 了 一 个 实现 
在 底层 网 络 之 上 的 覆盖 。 覆盖 中 的 每 个 节点 也 存在 于 底层 网 @ _@ 
络 中 ， 它 按 一 种 特定 于 应 用 的 方法 来 处 理 和 转发 分 组 。 连 接 

盖 节 点 的 链 路 作为 通过 底层 网 络 的 隧道 来 实现 。 多 个 覆盖 

网 络 能 存在 于 同一 个 底层 网 络 之 上 〈 每 个 实现 它们 目 己 的 特 
定 应 用 行为 )， 并 且 和 覆盖 可 以 舰 套 ， 一 个 搭建 在 男 一 个 之 上 。 
例如 ， 本 节 讨 论 的 所 有 覆盖 网 络 示 例 都 将 今天 的 因特网 视 为 
底层 网 络 。 | | 

我 们 看 过 隧道 化 的 例子 , 例如 用 于 实现 虚拟 专用 
网 (VPN)。 简 要 复习 一 下 ， 隧 道 两 端的 节点 视 它 们 之 间 的 
多 条 路 径 为 一 个 单一 的 逻辑 链 路 ， 节 点 根据 分 组 外 部 的 首部 5 g 
通过 隧道 转发 分 组 ， 而 从 不 知道 端 市 点 已 经 附加 了 内 部 首 图 9-19 在 物理 网 络 之 上 
部 。 例如， 图 9-20 显示 了 由 一 对 隧道 连接 的 三 个 覆盖 节点 。 ” 的 覆盖 网 络 
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(A, BAC), AAPA 也 根据 内 部 首部 (IHdr) AKA A 的 分 组 做 出 转发 到 C 的 决定 ， 
然后 附加 一 个 外 部 首部 (OHdr) ， 把 C 标识 为 底层 网 络 的 目的 地 。 市 点 A、B 和 C 能 解释 
内 部 和 外 部 首部 ， 然 而 中 间 的 路 由 器 仅 能 理解 外 部 首部 。 类 似 地 ，A、B 和 C AB RMS 
和 底层 网 络 中 都 有 地 址 ， 但 是 不 一 定 相 同 。 例 如 ， 它 们 的 低层 地 址 可 以 是 32 位 的 IP 地 
址 ， 而 它们 的 覆盖 地 址 可 以 是 实验 性 的 128 位 地 址 。 事 实 上， 覆盖 根本 不 需要 使 用 传统 地 
址 ， 而 可 以 根据 URL, RZ., KM 查询 甚至 分 组 的 内 容 来 决定 路 由 。 


PP P ea 
[mar | e [Hdr] - | ma | | 
E EE EEE EEE 





图 9-20” 穿 过 物理 节点 的 覆盖 节点 隧道 





覆盖 和 因特网 的 僵化 

由 于 因特网 的 流行 和 广泛 使 用 ， 使 得 人 们 容易 忘记 它 曾经 是 一 个 为 研究 人 员 实验 分 组 
交换 网 络 的 实验 设施 。 然 而 ， 因 特 网 在 商业 上 越 是 成 功 ， 作 为 提供 新 思想 的 平台 的 作用 就 
越 小 。 今天， 商业 利益 限制 了 因特网 的 持续 发 展 。 


事实 上 ， 来自 美国 国家 研究 委员 会 (Nation Research Council) 2001 年 的 报告 指出 ， 
不 管 在 管 能 (与 现行 标准 的 兼容 性 的 压力 抑制 了 其 进一步 创新 ) 方面 还 是 基础 结构 本 身 
(研究 人 员 影 响 核心 基础 结构 几乎 是 不 可 能 的 ) 方面 ， 因 特 网 都 是 僵化 的 。 同 时 ， 一 整套 
可 能 需要 新 解决 方法 的 新 挑战 也 正在 出 现 。 报 告 指出 ， 进 退 两 难 的 局 面 在 于 : 

“…… 成 功 和 广泛 被 采用 的 技术 容易 僵化 ， 使 得 新 功能 很 难 引进 ， 或 者 如 果 

继续 采用 现行 技术 ， 很 难 用 更 好 的 技术 取而代之 。 现 有 的 业界 人 士 一 般 不 积极 开 

发 或 部 署 创新 性 的 技术 ……:” | 

寻找 引进 创新 技术 的 正确 途径 是 令 人 感 兴趣 的 问题 。 这 样 的 创新 能 把 某 些 事情 做 得 非 
常 好 ， 但 整体 上 它们 落后 于 其 他 重要 领域 的 现 有 技术 。 例 如 ， 为 了 在 因特网 中 引进 一 种 新 
的 路 由 策略 ， 你 必须 构造 一 种 路 由 器 ， 它 不 仅 支 持 这 一 新 策略 ， 同 时 也 能 与 市 场 已 有 的 产 
品 在 性 能 、 可 靠 性 、 管 理工 具 集 等 方面 进行 竞争 。 这 是 一 个 过 分 的 要 求 。 创 新 者 需要 的 是 
一 种 方法 ， 人 允许 用 户 利用 新 思想 ， 而 又 不 必 编 写 为 支持 基本 系统 所 需 的 成 千 上 万 行 的 
代码 。 | 

覆盖 网 络 恰好 提供 了 这 样 的 机 遇 。 可 通过 编程 使 覆盖 节点 支持 新 的 功能 或 特性 ， 并 且 
依赖 传统 节点 提供 低层 连接 。 随 着 时 间 的 推移 ， 如 果 在 覆盖 中 所 用 的 思想 被 证 明 是 有 用 
的 ， 就 可 能 有 经 济 动力 把 这 些 功能 移植 到 基本 系统 中 ， 即 把 它 加 入 到 商用 路 由 器 的 功能 特 
性 集合 中 。 男 一 方面 ， 这 些 功能 可 能 相当 复杂 ， 足 以 使 覆盖 层 保持 原状 。 


94.1 . 路 由 覆盖 
最 简单 的 上 覆盖 是 纯粹 用 来 文 持 路 由 的 一 种 蔡 代 策略 ， 在 覆盖 节点 上 没有 执行 额外 的 应 
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用 层 处 理 。 可 以 把 虚拟 专用 网 L 4. 1. 8 节 ) 看 作 一 个 路 由 选择 覆盖 的 例子 ， 与 其 说 它 定 
义 一 个 替代 策略 或 算法 ， 不 如 说 定义 由 标准 IP 转发 算法 处 理 的 末代 路 由 表 项 。 在 这 种 特 
殊 情 况 下 ， 和 覆盖 使 用 “IP 隧道 ”， 而 大 多 数 商 用 路 由 器 支持 利用 这 些 VPN 的 能 

然而 假设 你 打算 使 用 商用 路 由 器 提供 商 不 想 在 其 产品 中 提供 的 路 由 算法 ， 那 么 如 何 处 
理 这 种 情况 ?你 可 以 简单 地 在 一 些 端 主机 上 运行 你 的 算法 并 且 以 隧道 方式 穿 过 因特网 路 由 
伪 。 这 些 主机 的 行为 像 是 覆盖 网 络 上 的 路 由 器 : 作为 主机 它们 可 能 仅 通 过 一 条 物理 链 路 连 
接 到 因特网 ， 但 作为 覆盖 节点 它们 通过 隧道 连接 到 多 个 邻居 。 

因为 覆 才 根据 定义 几乎 是 引入 独立 于 标准 化 处 理 的 新 技术 的 一 种 途径 ， 所 以 我 们 不 能 
把 哪个 标准 覆盖 作为 例子 。 相 反 ， 我 们 通过 描述 一 系列 近来 由 网 络 研究 人 员 提 出 的 实验 系 
统 来 说 明 路 由 选择 覆盖 的 一 般 思 想 。 

1. IP 实验 版 本 

覆盖 对 于 部 署 你 希望 最 终 将 占领 世界 的 IP 实验 版 本 来 说 是 理想 的 。 例 如 ，IP 多 播 
( 见 4.2 节 ) 开始 是 作为 IP 的 一 种 扩展 ,但 直到 今天 仍然 有 很 多 因特网 路 由 器 不 支持 它 。 
多 播 主 干 (MBone) 是 在 因特网 单 播 路 由 的 基础 上 实现 的 IP 多 播 的 覆盖 网 络 。Mbone 上 
开发 并 部 署 了 大 量 多 媒体 会 议 工 具 ， 例 如 ，IETF 会 议 ( 它 持 续 一 周 并 且 吸 引 了 成 千 上 万 
的 参与 者 ) ， 多 年 来 都 在 MBone 上 广播 。 

像 VPN 一 样 ，MBone 同时 使 用 IP 隧道 和 IP 地 址 ， 但 与 VPN 不 同 的 是 ，MBone 实 
现 一 个 不 同 的 转发 算法 一 一 它 转发 分 组 到 最 短路 径 多 播 树 中 的 所 有 下 游 邻 居 。 作 为 覆盖 ， 
支持 多 播 的 路 由 器 建立 穿 过 传统 路 由 器 的 隧道 ， 同 时 希望 有 旨 一 日 它 将 不 再 使 用 传统 路 
由 器 。 

6-BONE 是 一 个 类 似 的 覆盖 ， 它 用 于 逐步 部 署 IPv6 。 像 Mbone 一 样 ，6-BONE 通过 
IPv4 路 由 器 用 隧道 转发 分 组 。 然 而 与 MBone 不 同 的 是 ，6-BONE 节点 不 是 简单 地 提供 
IPv4 的 32 位 的 新 解释 ， 而 是 根据 IPv6 的 128 位 地 址 空间 转发 分 组 。 此 外 ，6-BONE 也 文 
FEL HE 

2. 端 系统 多 播 | 

虽然 IP 多 播 在 研究 者 和 因特网 社团 的 特定 部 分 很 流行 ， 但 它 在 全 球 因 特 网 上 的 部 署 
受到 很 大 的 限制 。 因 此 ， 像 视频 会 议 那 样 的 基于 多 播 的 应 用 近来 已 经 转向 另外 一 种 策略 ， 
称 为 端 系统 多 播 Cend system mnulticast) 。 端 系统 多 播 的 概念 是 承认 IP 多 播 将 不 会 无 处 不 
在 ， 而 代 之 以 让 参与 特定 多 播 应 用 的 端 主机 实现 自己 的 多 播 树 。 

在 描述 端 系 统 多 播 如 何 工 作 之 前 ， 重 要 的 是 先 理解 它 不 像 VPN 和 MBone， 端 系统 多 
播 假 设 只 有 因特网 主机 (而 不 是 因特网 路 由 器 〉 参 与 履 盖 。 此 外 ， 这 些 主 机 通常 是 通过 
UDP 隧道 而 不 是 IP 隧道 相互 交换 消息 ， 使 它 容易 作为 常规 的 应 用 程序 来 实现 。 这 使 得 有 
可 能 将 底层 网 络 看 成 是 一 个 全 连通 图 ， 因 为 在 因特网 中 的 每 台 主 机 都 能 向 所 有 其 他 主机 发 
送 消息 。 因 此 ， 可 以 抽象 地 说 端 系统 多 播 解 决 了 下 列 问 题 ， 从 表示 因特网 的 全 连通 图 出 
发 ， 目 标 是 找 出 其 中 跨越 全 体 组 成 员 的 内 和 众多 播 树 。 

既然 我 们 把 底层 的 因特网 看 成 是 全 连通 的 ， 一 种 简单 的 解决 方案 是 使 每 一 个 源 直接 与 
每 个 组 成 员 连 接 。 换 名 话说 ， 端 系统 多 播 能 够 通过 由 每 个 节点 发 送 单 点 播送 消息 到 每 个 
组 成 员 来 实现 。 为 看 清 这 其 中 的 问题 ， 特 别 是 与 在 路 由 器 中 实现 IP 多 播 相 比较 ， 考 虑 
图 9-21 中 的 示例 拓扑 图 。 图 9-21a 描绘 了 一 个 物理 拓扑 的 例子 ， 其 中 Rl1 和 R2 是 由 低 带 
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宽 的 横 跨 大 陆 的 链 路 所 连接 的 路 由 器 ; A、B、C 和 DD 是 端 主机 ， 链 路 的 延迟 作为 边 的 权 
值 。 假 设 A 想 要 发 送 多 播 消 息 到 其 他 三 台 主 机 ， 图 9-21b 显示 了 简单 的 单 点 播送 通信 是 如 
何 工作 的 。 同 样 的 消息 必须 穿越 AR 链 路 三 次 ， 且 消息 的 两 个 副本 穿越 Ri-R2， 显 然 这 
是 不 希望 发 生 的 。 图 9-21c 描述 了 通过 DVMRP 构造 的 IP 多 播 树 。 显 然 ， 这 一 方法 排除 
了 多 余 的 消息 。 然 而 ,没有 路 由 器 的 支持 ， 你 能 希望 得 到 的 最 好 的 端 系统 多 播 是 一 个 类 似 
于 图 9-19d 显示 的 树 。 端 系统 多 播 定 义 了 一 个 构造 此 树 的 体系 结构 。 





c) 
图 9-21 映射 到 一 个 物理 拓扑 上 的 可 选 的 多 播 树 


一 般 的 做 法 是 支持 多 层 的 覆盖 网 络 ， 每 一 层 覆 盖 网 络 从 下 一 层 履 盖 网 络 中 抽取 一 个 子 
图 ， 直 到 我 们 已 经 选择 了 应 用 所 期 望 的 子 图 。 特 
定 的 端 系统 多 播发 生 在 两 个 阶段 ， 首先 我 们 在 全 
连通 的 因特网 顶部 构建 一 个 简单 的 网 格 (mesh)， 
然后 我 们 在 此 网 格 内 选择 一 个 多 播 树 。 这 一 思想 
在 图 9-22 中 说 明 ， 我 们 再 次 假设 四 个 端 主机 A, 
B、C 和 D。 第 一 步 是 关键 性 的 ， 一旦 我 们 选择 了 
一 个 合适 的 网 格 覆 盖 ， 我 们 就 在 其 上 简单 地 运行 
一 个 标准 的 多 播 路 由 算法 (如 DVMRP) 来 构造 
多 播 树 。 我 们 还 奢望 忽略 因特网 范围 的 多 播 所 面 
对 的 可 扩展 性 问题 ， 因 为 可 以 选择 仅 包括 那些 想 
要 参与 特定 多 播 组 的 节点 的 中 间 网 格 。 

构建 中 间 网 格 覆 盖 的 关键 是 选择 一 个 大 致 对 
应 于 下 层 因 特 网 物理 拓扑 的 拓扑 图 ， 但 我 们 不 得 
不 在 没有 人 告诉 我 们 下 层 因特网 实际 看 上 去 如 何 
的 情况 下 去 做 ， 因 为 我 们 仅 在 端 主机 上 运行 而 不 是 在 路 由 器 上 。 一 般 的 策略 是 为 端 主 机 测 
量 到 其 他 节点 的 往返 延迟 ， 并 且 决 定 仅 当 出 现 它们 喜欢 的 链 路 时 才 把 它 加 到 网 格 中 。 这 一 
工作 过 程 如 下 。 

首先 ， 假 设 网 格 已 经 存在 ， 每 个 节点 与 它 直接 连接 的 邻居 交换 所 有 其 他 被 认为 是 网 格 
员 节点 的 列表 。 当 某 个 节点 从 邻居 接收 到 这 样 一 个 成 员 列 表 后 ， 它 将 信息 加 入 自己 的 成 
员 列表 中 ， 并 且 将 得 到 的 列表 转发 到 它 的 邻居 。 这 个 信息 最 终 传 遍 网 格 ， 很 像 距 离 向 量 路 
由 协议 。 

当 一 台 主 机 想 要 加 入 多 播 覆盖 时 ， 它 必须 知道 至 少 一 个 覆盖 中 的 其 他 节点 的 IP 地 址 。 
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然后 它 发 送 一 条 “加 入 网 格 ”消息 到 这 个 节点 。 这 样 就 通过 到 已 知 节 点 的 一 条 边 将 新 节点 
连接 到 网 格 。 通 常 ， 新 节点 可 能 将 消息 发 给 多 个 当前 节点 ， 从 而 通过 多 重 连 接 加 入 网 格 。 
一 旦 节点 由 一 组 链 路 连接 到 网 格 ， 它 就 周期 性 地 发 送 “ 保 活 ” 消 息 到 其 邻居 节点 ， 让 邻居 
知道 它 仍 想 作为 组 的 一 部 分 。 | 

当 一 个 节点 离开 组 时 ， 它 发 送 一 条 “离开 网 格 ” 消 息 到 与 它 直 接 相 连 的 邻居 ， 并 且 这 
一 信息 通过 上 面 描述 的 成 员 列 圾 传播 到 在 网 格 中 的 其 他 节点 。 另 外 ， 节 点 可 能 发 生 故障 ， 
或 仅仅 是 决定 要 默默 地 退出 组 ， 在 这 种 情况 下 ， 邻 居 测 定 出 它 不 再 送出 “ 保 活 ”消息 。 一 
些 市 点 的 离开 对 网 格 的 影响 很 小 ， 但 节点 应 检测 到 网 格 由 于 离开 的 节点 而 被 分 区 ， 它 通过 
给 为 一 个 区 域 的 市 皮 发 送 “ 加 入 网 格 ” 的 消息 ， 建 立 一 条 到 那个 节点 的 新 边 。 注 意 多 个 邻 
居 能 同时 判定 在 网 格 中 已 经 出 现 分 区 ， 导 致 多 个 跨 区 域 的 边 被 加 入 到 网 格 中 。 

综 上 所 述 ， 我 们 将 得 到 一 个 网 格 ， 它 是 原 有 全 连通 因特网 的 子 图 ， 但 它 的 性 能 可 能 是 
次 优 的 ， 因 为 中 初始 的 邻居 选择 向 拓扑 中 加 入 了 随机 的 链 路 ， 包 分 区 的 修复 可 能 增加 当时 
重要 但 不 是 长 期 有 用 的 边 ， 久 组 成 员 可 能 于 动态 的 加 入 和 离开 而 变化 ， 四 底层 网 络 条 件 
可 能 变化 。 因 此 需要 系统 计算 每 条 边 的 值 ， 导 致 不 断 对 网 格 加 入 新 边 和 删除 边 。 

为 增加 新 边 ， 每 个 证 点 i 周期 性 地 探测 那些 目前 没有 连接 到 网 格 中 的 任意 成 员 j， 测 
BW G, j) 的 往返 时 延 ， 然 后 评估 加 入 此 边 的 效用 。 如 果 效 用 超过 某 个 阀 值 ， 链 路 (i, j) 
被 加 入 到 网 格 。 评 估 加 入 边 (i, D 的 效用 的 过 程 如 下 : 

Evaluate Utility(7) 

utility = 0 

对 于 每 个 不 等 于 i 的 成 员 m 

CL= 通 过 网 格 路 由 到 节点 m 的 当前 时 延 
NL = 在 网 格 中 增加 边 ( 7) 后 到 节点 mm 的 新 时 延 
if (NL < CL) then 

utility += (CL - NL)/CL 

return utility 
决定 删 去 一 条 边 与 之 类 似 ， 只 是 每 个 节点 工 计 算 到 当前 邻居 7 的 每 条 链 路 的 代价 的 过 程 
如 下 : 


EvaluateCost(j) 

Costi; = 以 /作为 ;的 下 一 跳 的 成 员 的 数量 

Costs; = 以 i 作为 j 的 下 一 跳 的 成 员 的 数量 

return max(Cost;;, Cost,;) 
SR Ja BEA — PAR TR SB i) FEMRE FSET BE OE HE 。 

最 后 ， 因 为 维护 网 格 所 本 质 上 使 用 的 是 距离 向 量 路 由 协议 ， 所 以 运行 DVMRP 在 网 格 
中 找 出 适当 的 多 播 树 是 轻而易举 的 。 注 意 ， 尽 管 不 可 能 证 明 刚才 摘 述 的 协议 可 形成 最 优 网 
格 ， 但 允许 DVMRP 选择 可 能 最 佳 的 多 播 树 ， 仿 真 和 大 量 的 实践 经 验 显 示 它 的 效果 不 错 。 

3. 弹性 覆盖 网 络 | 

Fa — FP TEE MÍT HY A st Fy FS AY FPG De FE AY PC ee. AAA ae A 
特 网 中 三 角 不 等 式 不 成 立 的 观测 现象 。 图 9-23 说 明了 这 个 问题 。 在 因特网 中 找 出 这 样 的 三 个 
站 点 不 足 为 奇 〈 把 它们 称 为 A、B、@C ，A 与 B 之 间 的 时 延 大 于 A 与 C 和 C 与 B 之 间 时 延 的 
和 ， 就 是 说 ， 有 时 通过 中 间 节 点 间接 发 送 分 组 比 直 接 将 其 发 送 到 目的 地 要 好 一 些 。 
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图 9-23 三 角 不 等 式 在 网 络 中 不 一 定 成 立 


怎么 会 这 样 呢 ? BGP 从 来 不 许诺 它 能 找 出 任意 两 个 站 点 间 的 最 短 (shortest) 路 由 ， 
人 Ab al 


它 只 能 尝试 找 出 某 条 (some) 路 由 。 更 糟糕 的 是 ，BGP 路 由 受 政策 问题 影响 严重 ， 比 如 
谁 向 谁 付费 以 承载 流量 。 这 是 经 常 发 生 的 ， 例 如 在 重要 的 主干 网 ISP 之 间 的 对 等 点 上 。 简 
言 之 ， 不 应 该 再 对 因特网 中 三 角 不 等 式 不 成 立 感到 惊奇 。 | 

我 们 如 何 利 用 这 一 观测 现象 呢 ? 第 一 步 是 认识 到 在 可 扩展 性 与 路 由 算法 的 最 优 性 之 间 
有 一 个 基本 的 平衡 。 一 方面 ，BGP 适合 非常 大 的 网 络 ， 但 常常 不 选择 可 能 的 最 佳 路 由 ， 并 
且 对 网 络 故障 的 适应 是 很 慢 的 。 另 一 方面 ， 如 果 你 仅 关 心 在 少数 站 点 之 中 找到 最 佳 路 由 ， 
那么 你 在 监视 可 能 使 用 的 每 条 路 径 的 质量 方面 应 该 做 得 好 得 多 ， 因 此 人 允许 选择 在 任 一 时 刻 
的 最 佳 可 能 路 由 。 

一 个 称 为 弹性 覆盖 网 络 (Resilient Overlay Network, RON) 的 实验 性 履 盖 正好 完成 
这 一 工作 。 因 为 RON 使 用 nXn 的 策略 ， 在 每 对 站 点 之 间 密 切 监 视 (通过 主动 探测 ) 路 径 
质量 的 三 个 方面 一 一 时 延 、 可 用 带宽 和 分 组 丢失 率 ， 它 的 规模 仅 能 达到 几 十 个 市 上 态 。 这 既 
能 在 任 一 对 节点 间 选 择 最 佳 路 由 ， 也 能 在 网 络 条 件 变 化 时 快速 更 改 路 由 。 实 践 表 明 ,RON 
能 为 应 用 带 来 适度 的 性 能 改进 ， 但 更 重要 的 是 ， 它 能 从 网 络 故障 中 更 快 地 恢复 。 例 如， 
2001 年 在 64 小 时 的 时 间 内 ， 一 个 运行 在 12 个 节点 的 RON 实例 检测 到 持续 达 30 分 钟 的 
32 次 故障 ， 并 且 它 也 能 在 平均 20 秒 内 从 中 恢复 。 这 次 实验 也 表明 ， 仅 通过 一 个 中 间 节 点 
转发 数据 ， 通 常 也 就 足以 从 因特网 的 故障 中 恢复 。 

因为 RON 规模 不 能 扩展 ， 所 以 使 用 RON 去 帮助 任意 主机 A 与 任意 主机 也 通信 是 不 
可 能 的 。A 和 B 必须 事先 知道 它们 可 能 通信 ， 然 后 加 入 到 同一 个 RON。 然 而 ，RON 在 某 
些 情况 下 似乎 是 一 个 好 主意 ， 如 当 连 接 几 十 个 分 布 在 因特网 中 的 公司 站 点 时 ， 或 允许 你 和 
你 的 50 个 朋友 为 了 运行 某 个 应 用 而 建立 你 们 的 私有 覆盖 时 。 但 实际 问题 是 当 每 人 都 开始 
运行 他 们 自己 的 RON 时 将 会 发 生 什 么 ? 上 百 万 的 RON 主动 探测 路 径 是 否 会 使 网 络 不 堪 
重负 ? 并 且 当 许多 RON 竞争 同样 的 路 径 时 ， 是 否 有 任何 一 个 RON 会 获得 改进 的 性 能 ? 
这 些 问题 仍然 无 法 回答 。 | 

结论 ”一 般 而 言 ， 这 些 尾 盖 说 明了 计算 机 网 络 的 一 个 核心 概念 : 虚拟 化 (virtual- 

ization)© 。 就 是 说 ， 在 由 物理 资源 构建 的 物理 网 络 之 上 用 抽象 CGA) 资源 构建 


O 术语 虚拟 化 现在 更 多 地 用 在 数据 中 心计 算 的 背景 下 ， 指 的 是 使 用 超级 管理 程序 或 类 似 技术 进行 服务 器 的 虚拟 
化 ， 但 它 其 实 是 一 个 更 广泛 的 概念 。 


”一 个 虚拟 网 络 是 可 能 的 。 而且， 这 些 虚 拟 化 的 网 络 可 以 堆 又 ， 多 个 虚拟 网 络 可 共 
存在 同一 层 上 。 每 个 虚拟 网 络 又 为 一 些 用 户 、 应 用 或 高 层 网 络 提供 有 价值 的 新 


功能 。 
9.4.2 对 等 网 


& Napster® #] KaZaA 这 样 共享 音乐 的 应 用 已 将 术语 “对 等 ”的 概念 引入 流行 的 行 话 
里 。 但 是 对 一 个 系统 而 言 ，“ 对 等 ” 究 竞 意味 着 什么 ? 当然 ， 在 共享 MP3 文件 的 环境 中 ， 
它 意 味 看 不 必 从 中 心 站 点 下 载 音 乐 ， 而 是 能 够 直接 从 因特网 中 其 他 存放 音乐 拷贝 的 机 器 上 
下 载 。 更 宽泛 地 讲 ， 我 们 可 以 说 对 等 网 允许 一 个 用 户 团体 把 他 们 的 资源 〈 内 容 、 存 储 、 网 
络 人 带宽、 磁盘 带宽 、CPU) 放 到 一 个 缓冲 池 中 ， 从 而 提供 对 更 大 的 档案 库 、 更 大 的 视 音 频 
会 议 、 更 复杂 的 搜索 和 计算 等 的 访问 ， 这 是 任何 用 户 不 能 单独 提供 的 。 

通常 ， 当 讨论 对 等 网 时 ， 一 提 到 像 非 集中 (decentralized) # A 282% (self-organi- 
zing) 这 样 的 属性 就 意味 着 单个 节点 在 没有 任何 集中 式 协商 的 情况 下 ， 把 它们 自己 组 织 成 
一 个 网 络 。 这 些 术语 也 能 用 于 描述 因特网 本 身 。 然 而 具有 讽刺 意味 的 是 ， 依 照 这 个 定义 来 
衡量 ，Napster 算 不 上 一 个 真正 的 对 等 系统 ， 因 为 它 依 赖 于 已 知 文件 的 中 心 注册 目录 ， 用 
户 为 了 找到 提供 某 个 指定 文件 的 机 器 ， 必 须 查 找 这 个 目录 。 只 有 最 后 一 步 《〈 真 正 下 载 文 
件 ) 才 发 生 在 两 个 用 户 的 计算 机 之 间 ， 但 这 并 没 比 传统 的 客户 /服务 器 交互 多 做 什么 工作 。 
唯一 的 不 同 是 服务 器 属于 某 个 像 你 一 样 的 客户 而 不 是 一 家 大 公司 。 | | 

因此 ， 我 们 回 到 最 初 的 问题 ， 就 对 等 网 而 言 什么 最 吸引 人 ? 一 种 回答 是 定位 一 个 感 兴 
趣 的 对 象 和 把 它 下 载 到 你 的 计算 机 上 的 过 程 都 不 必 与 同一 个 中 央 权 威 机 构 联 系 ， 同 时 系统 
能 够 扩展 到 几 百 万 个 节点 。 能 够 以 非 集中 方式 完成 这 两 项 任务 的 对 等 系统 原来 就 是 一 个 禾 
盖 网 ， 其 中 节点 就 是 那些 愿意 共享 感 兴趣 的 对 象 (例如 音乐 和 其 他 各 类 文件 ) 的 主机 ， 而 
连接 这 些 节 点 的 链 路 〈 隧 道 ) 代表 为 了 追踪 那些 你 想 要 的 对 象 而 必须 访问 的 机 需 序 列 。 我 
们 看 完 下 面 两 个 例子 之 后 ， 这 种 描述 就 会 变 得 更 加 清晰 。 

1. Gnutella | 

Gnutella 是 一 个 早期 的 对 等 网 ， 它 试图 区 别 交 换 音乐 〈 可 能 侵犯 某 人 的 版 权 ) 和 一 般 
的 共享 文件 〈 这 应 该 是 件 好 事 ， 因 为 我 们 从 2 岁 起 就 学 习 共 享 了 ) Gnutella 的 吸引 人 之 
处 在 于 它 是 最 早 不 依赖 于 对 象 集 中 式 注册 目录 的 系统 之 一 。 相 反 ，Gnutella 的 参与 者 把 目 
己 安 排 在 一 个 类 似 于 图 9-24 所 示 的 覆盖 网 上 。 就 是 说 ， 运 
ÍF Gnutella 软件 〈 即 实现 Gnutella 协议 ) 的 每 个 节点 知道 
同样 运行 Gnutella 软件 的 其 他 计算 机 。 “A M BALA” 
的 关系 对 应 于 这 个 图 的 边 。( 后 面 我 们 会 谈 到 这 幅 图 是 如 何 
形成 的 。) 

每 当 一 个 给 定 节 点 上 的 用 户 想 找 一 个 对 象 时 ，Gnute- 
la 为 它 发 出 一 条 QUERY 消息 (例如 指出 文件 的 名 字 ) 
给 它 的 邻居 。 如 果 一 个 邻居 有 此 对 象 ， 它 就 用 QUERY 
RESPONSE 消息 回答 发 出 查询 的 节点 ， 指 出 从 哪里 〈 例 
如 一 个 IP 地 址 和 TCP 端口 号 ) 可 以 下 载 想 要 的 对 象 。 那 
个 节点 随后 使 用 GET 或 PUT 消息 访问 对 象 。 如 果 节 点 图 9-24 Gnutella 对 等 网 
不 能 解析 这 个 查询 ， 它 将 QUERY 消息 转发 给 它 的 每 个 的 拓扑 示例 



































邻居 〈 除 发 出 查询 的 节点 外 )， 然 后 这 个 过 程 重复 进行 。 换 句 话 说， 为 了 和 定位 对 象 ， 
Gnutella 在 覆盖 上 扩散 。Gnutella 为 每 一 个 查询 设置 一 个 TTL， 所 以 这 种 扩散 不 会 无 休 
止 地 进行 下 去 。 

除了 TTL 和 查询 串 ， 每 一 条 QUERY 消息 包含 唯一 的 一 个 查询 标识 符 CQID), ， 但 
是 它 不 包含 初始 消息 源 的 标识 。 相 反 ， 每 个 节点 维护 近期 看 到 的 QUERY 消息 的 一 个 记 
x: QID 和 给 它 发 QUERY 的 邻居 。 它 以 两 种 方式 使 用 这 一 历史 记录 ， 首 先 ， 如 果 市 点 
收 到 的 QUERY 的 QID 与 它 最 近 看 到 的 QID 相 匹 配 ， 那 么 它 不 转发 这 条 QUERY 消息 。 
这 样 可 以 比 使 用 TTL 更 快 地 结束 转发 循环 。 第 二 ， 每 当 市 点 从 下 游 邻 居 收 到 一 个 
QUERY RESPONSE， 它 都 知道 应 将 响应 转发 到 最 初 给 它 发 送 QUERY 消息 的 上 游 市 
点 。 这 样 ， 响 应 会 返回 初始 节点 ， 而 没有 一 个 中 间 节 点 知道 最 初 是 谁 想 要 这 个 特定 的 
对 象 。 

回 到 如 何 生 成 图 的 问题 ， 当 一 个 节点 加 入 Gnutella 覆盖 时 ， 当 然 必 须 至 少 知道 一 个 其 
他 节点 。 新 节点 至 少 通过 一 个 这 样 的 链 路 连 到 覆盖 。 然 后 ， 节 点 通过 QUERY RE- 
SPONSE 消息 了 解 其 他 节点 ， 既 包括 它 请 求 的 对 象 ， 也 包括 响应 恰好 通过 的 节点 。 节 点 目 
由 决定 要 把 所 发 现 的 哪 一 个 节点 作为 邻居 。Gnautella 协议 提供 PING 和 PONG 消息 ， 通 过 
这 两 个 消息 ， 节 点 分 别 探 测 一 个 给 定 的 邻居 是 否 仍 然 存在 以 及 它 是 否 啊 应 。 

应 该 明白 ，Gnutella 不 是 一 个 特别 聪明 的 协议 ， 其 后 的 系统 已 在 努力 改进 它 。 可 能 改 
进 的 一 个 方面 是 如 何 传播 查询 。 扩 散 有 一 个 很 好 的 特性 ， 它 保证 可 以 在 最 少 可 能 的 跳 数 内 
找到 期 望 的 目标 ， 但 是 它 的 扩展 性 不 好 。 它 可 能 随机 转发 查询 ， 或 者 根据 以 往 结果 的 成 功 
概率 转发 查询 。 第 二 个 方面 是 竭力 复制 对 象 ， 因 为 给 定 对 象 的 拷贝 越 多 ， 就 越 容易 找到 一 
个 拷贝 。 另 外 ， 你 也 可 能 提出 一 个 完全 不 同 的 策略 ， 这 是 我 们 下 面 将 要 考虑 的 问题 。 

2. 结构 化 覆盖 

在 文件 共享 系统 已 经 奋力 填补 Napster 留 下 空白 的 同时 ， 人 研究 团体 也 为 对 等 网 探索 了 
一 种 替代 的 设计 。 与 Gnutella 网 络 本 质 上 的 随机 〈 非 结构 化 ) 演化 方式 相对 照 ， 我 们 把 这 
样 的 网 络 称 为 结构 化 的 〈structured) 。 类 似 于 Gnutella 的 非 结构 化 覆盖 使 用 简单 的 覆盖 构 
造 和 维护 算法 ， 但 它们 最 多 提供 不 可 靠 的 、 随 机 的 搜索 。 相 反 ， 为 了 与 一 个 特定 图 的 结构 
保持 一 致 ， 结 构 化 覆盖 被 设计 为 允许 可 靠 的 和 有 效 的 〈 用 概率 方式 限定 延迟 ) 对 象 定 位 ， 
但 是 在 覆盖 构造 和 维护 中 增加 了 复杂 性 。 

如 果 你 从 更 高 的 层次 上 想 一 下 我 们 要 做 什么 ， 那 么 需要 考虑 两 个 问题 ， @ 我 们 如 何 将 
MARS? @ 我 们 如 何 把 请 求 路 由 到 负责 存储 给 定 对 象 的 节点 ? 我 们 从 第 一 个 问题 
开始 ， 这 个 问题 有 一 种 简单 的 陈述 ,我们 如 何 将 名 为 工 的 对 象 映射 到 某 个 能 为 它 提供 服务 
的 市 点 7 的 地 址 上 ? 传统 的 对 等 网 对 于 哪个 节点 存储 对 象 x 没有 控制 权 ， 而 如 果 我 们 能 控 
制 对 象 在 网 上 如 何 分 布 ， 那 么 以 后 我 们 就 更 容易 找到 这 些 对 象 。 

将 名 字 上 映 映 到 地 址 的 一 种 常用 技术 是 散 列 表 

hash(x)—n 
意味 着 首先 将 对 象 工 放 到 节点 上 上， 此 后 ， 想 要 定位 z 的 客户 只 要 计算 x 的 散 列 值 就 能 确 
定 它 在 节点 x 上 。 基 于 散 列 的 方法 有 一 个 非常 好 的 特性 ， 它 易于 将 对 象 均匀 分 布 到 一 组 节 
点 上 ， 但 是 简单 的 散 列 算法 有 一 个 致命 的 弱点 : 我 们 应 该 允许 n 有 多 少 个 可 能 的 值 ? (用 
散 列 法 的 术语 ， 应 该 有 多 少 桶 ?) 我 们 可 以 简单 地 决定 ， 例 如 有 101 个 可 能 的 散 列 值 ， 使 





用 模 运 算 的 散 列 函数 ， 即 
hash(z) 


return x % 101 
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RW, WREEF 101 个 节点 愿意 存储 对 象 ， 那 么 我 们 就 不 可 能 利用 到 所 有 节点 ， 另 
一 方面 ， 如 采 我 们 选择 的 模 大 于 最 大 可 能 节点 数目 ， 那 么 x 的 某 些 值 将 散 列 到 一 个 不 存在 
的 节点 的 地 址 。 这 也 是 将 散 列 函数 转换 返回 值 作为 一 个 实际 IP 地 址 时 不 可 小 凯 的 问题 ， 


为 了 解决 这 个 问题 ， 结 构 化 的 对 等 网 使 用 一 
种 称 为 一 致 散 列 法 (consistent hashing) 的 算法 ， 
它 可 以 在 一 个 大 的 ID 空间 上 均匀 地 散 列 一 组 对 象 
x 的 散 列 值 。 图 9- 25 用 一 个 圆 图 表示 一 个 128 位 
的 ID 空间 ， 其 中 我 们 使 用 算法 把 对 象 
hash(object name)—objid 
和 和 把 
hashC(IP_addr)—nodeid 
放置 在 这 个 圆圈 上 。 由 于 128 位 的 ID 空间 是 很 大 
的 ， 所 以 一 个 对 象 与 一 台 计 算 机 的 IP 地 址 不 会 得 
到 同样 的 ID。 为 了 解决 这 种 问题 ， 每 个 对 象 由 在 
圆圈 上 有 最 接近 (closest) 它 的 ID 号 对 应 的 节点 维 
护 。 换 句 话 说， 这 里 的 做 法 是 使 用 高 质量 的 散 列 
函数 将 三 点 和 对 象 都 映射 到 同一 个 大 的 稀 玖 ID 空 
间 ， 然 后 根据 它们 各 上 自 标识 符 数 值 的 接近 程度 将 
REA BT LE. RY BO TT RE E 





图 9-25 节点 和 对 象 都 映射 〈 散 列 ) 到 ID 
空间 ， 对 象 由 空间 中 最 近 的 节点 来 维护 


方法 可 以 将 对 象 均匀 分 布 在 方 挟 上 ， 但 与 一 般 散 列 计算 不 同 的 是 ， 当 一 个 节点 〈 获 列 桶 ) 


加 入 或 离开 时 ， 仅 有 少量 对 象 需要 移动 。 


现在 我 们 考虑 第 二 个 问题 : 一 个 想 要 访问 对 象 z 的 用 户 如 何 知 道 空 间 中 哪个 节点 的 
ID 最 接近 x 的 ID? 一 个 可 能 的 答案 是 每 个 三 点 保存 一 张 完整 的 市 点 ID 与 相关 的 IP 地 址 


的 表 ， 但 这 对 于 一 个 大 型 网 络 来 说 并 不 实用 。 
为 一 种 方法 是 将 消息 路 由 到 这 个 节点 上 Croute 
a message to this node)! 这 正 是 结构 化 对 等 网 
所 使 用 的 方法 。 换 句 话 说 ， 如 果 我 们 以 一 种 聪 
明 的 方法 构建 覆盖 一 一 与 我 们 需要 聪明 地 为 节 
点 的 路 由 表 选 择 表 项 是 一 样 的 一 一 那么 我 们 就 
可 以 通过 简单 地 路 由 到 一 个 市 点 而 发 现 它 ， 有 
时 也 将 此 方法 称 为 分 布 式 散 列 表 (distributed 
hash table，DHT)， 因 为 从 概念 上 讲 ， 散 列表 
分 布 在 网 络 中 的 所 有 市 点 上 。 

图 9-26 展示 一 个 简单 的 28 比特 的 ID 空间 
会 发 生 什 么 。 为 了 使 讨论 尽量 具体 ， 我 们 考虑 
名 为 Pastry 的 特殊 对 等 网 所 使 用 的 方法 ， 其 他 
系统 以 相似 的 方式 工作 。 (更 多 的 例子 可 以 参见 








图 9-26 ”通过 对 等 覆盖 网 络 
中 的 路 由 来 定位 对 象 
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“扩展 阅读 ”介绍 的 文章 。) 
假设 你 在 ID 为 65alfc (16 进 制 ) 的 节点 上 ， 而 且 你 想 要 定位 ID 为 d46alc WHR. 
你 发 现 你 的 ID 与 对 象 的 ID 没有 任何 共同 之 处 ， 但 是 你 知道 一 个 至 少 共 享 前 级 d 的 节点 。 
那个 市 点 在 128 位 的 ID 空间 中 比 你 更 接近 对 象 ， 所 以 你 将 消息 转发 给 它 。( 我 们 不 给 出 所 
转发 的 消息 格式 ， 但 你 可 以 把 它 想象 成 “定位 对 象 d46alc”。) 假设 市 点 dl3da3 知道 男 一 
个 与 对 象 共享 更 长 前 缀 的 节点 ， 它 就 继续 转发 消息 。 这 个 过 程 一 直 继续 ， 直 到 到 达 一 个 不 
知道 更 近 节 点 的 节点 为 止 ， 根 据 定 义 ， 这 个 节点 正 是 存储 对 象 的 节点 。 记 住 ， 随 着 我 们 在 
“ID 空间 ”的 逻辑 移动 ， 消 息 实际 上 是 通过 底层 的 因特网 从 一 个 节点 转发 到 男 一 个 市 点 。 
每 个 节点 维护 一 个 路 由 表 (下 面 有 更 多 解释 ) 和 一 小 组 数字 更 大 或 更 小 的 万 点 ID 对 
应 的 IP 地 址 。 这 称 为 节点 的 叶 集 (leaf set) ， 它 的 意义 在 于 一 旦 消息 被 路 由 到 同一 叶 集 中 
的 任 一 节点 时 ， 此 节点 可 以 直接 转发 消息 到 最 终 目 的 地 。 从 另 一 个 角度 说 ， 即 使 存在 多 个 
与 对 象 ID 共享 最 长 前 级 的 节点 ， 叶 集 也 能 正确 而 有 效 地 将 消息 传递 到 数字 上 最 接近 它 的 
节点 。 此 外 ， 因 为 叶 集 中 的 任何 节点 都 可 以 路 由 消息 ， 如 同 同一 集合 中 的 任何 其 他 市 点 一 
样 ， 所 以 使 路 由 选择 更 健壮 。 这 样 ， 如 果 一 个 节点 不 能 进一步 路 由 一 条 消息 ， 那 么 叶 集 中 
的 其 他 邻居 也 许 能 。 总 之 ， 路 由 过 程 定义 如 下 : | 
. Route( D) 
if DD 在 我 的 叶 集 范围 内 
转发 到 叶 集 中 数字 上 最 接近 的 节点 
else 
令 1= 共享 前 级 的 长 度 
令 d= DD 的 地 址 中 第 /位 数字 的 值 
if RouteTab[ ,dj 存在 
# & Bl RouteTabll, d] 
alse 
转发 到 至 少 具 有 共享 前 级 长 度 且 数 字 上 更 接近 的 已 知 节点 
路 由 表 RouteTab 是 一 个 二 维 数组 。 对 于 ID 中 的 每 个 十 六 进 制 数字 (在 128 位 的 ID 
中 有 32 个 这 样 的 数字 ) 有 一 行 ， 对 于 每 个 十 六 进 制 值 (显然 有 16 个 这 样 的 值 ) 有 一 列 。 
1 行 中 的 每 一 项 和 这 个 节点 共享 长 度 为 : 的 前 缀 ， 并 且 在 这 一 行 中 ，7 列 中 的 项 在 第 i 十 1 
个 位 置 有 十 六 进 制 值 7。 图 9-27 显示 了 节点 65alfcx 的 示例 路 由 表 的 前 三 行 ， 其 中 xz 表示 
一 个 未 指定 的 后 级 。 该 图 显示 了 表 中 每 一 项 所 匹配 的 IDA. APRA BRT RY 
实际 值 一 一 路 由 到 的 下 一 个 节点 的 IP 地址。 
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图 9-27 ID 为 65alfcx 的 节点 的 示例 路 由 表 


向 覆盖 增加 一 个 节点 就 像 路 由 “定位 对 象 消息 ”到 对 象 一 样 ， 新 节点 必须 知道 至 少 一 
个 现 有 成 员 。 它 要 求 这 个 成 员 将 “增加 节点 消息 ”路 由 到 最 接近 加 入 节点 ID 的 节点 ， 如 
图 9-28 所 示 。 通 过 这 个 路 由 过 程 ， 新 节点 可 以 知道 其 他 共享 前 缀 的 节点 ， 并 开始 填写 路 
由 表 。 随 着 时 间 的 推移 ， 更 多 的 节点 加 入 到 覆盖 中 ， 现 有 节点 也 可 以 选择 是 否 在 自己 的 路 
由 表 中 加 入 这 些 节 点 的 信息 。 当 新 节点 增加 一 个 比 现 有 节点 当前 表 中 前 缀 更 长 的 前 绎 时 ， 
现 有 节点 才 做 这 个 选择 。 叶 集中 的 邻居 节点 也 相互 交换 路 由 表 ， 这 意味 着 随 着 时 间 的 推 
移 ， 路 由 信息 将 遍布 覆盖 网 络 。 








图 9-28 向 网 络 增加 一 个 节点 


你 可 能 已 经 注意 到 ， 尽 管 结构 化 覆盖 对 定位 一 个 给 定 对 象 时 所 需 的 路 由 跳 数 给 出 概率 
范围 一 一 Pastry 中 的 跳 数 被 限定 为 logis N， 其 中 N 是 覆盖 上 的 节点 数 一 一 每 一 跳 都 可 能 
引入 洪 在 的 延迟 。 这 是 因为 每 个 中 间 节 点 可 能 位 于 因特网 的 一 个 随机 位 置 上 。 (在 最 坏 的 
情况 下 ， 每 个 节点 在 不 同 的 大 陆 上 !) 事实 上 ， 在 世界 范围 内 使 用 上 述 算法 的 覆盖 网 上 ， 
每 一 跳 的 预计 延迟 是 因特网 上 任 一 对 节点 间 延 迟 的 平均 值 ! 幸运 的 是 实际 中 能 做 得 更 好 。 
其 思想 是 在 选择 每 一 个 路 由 表 项 时 ， 在 具有 适合 于 该 项 的 一 个 ID 前 缀 的 所 有 节点 中 ， 选 
择 在 底层 物理 网 中 较 近 的 节点 。 这 样 做 所 得 到 的 端 到 端 路 由 延迟 已 被 证 明 可 能 小 于 源 和 目 
的 之 间 的 延迟 。 | 

最 后 ， 目 前 的 讨论 集中 在 对 等 网 上 定位 对 象 的 一 般 问 题 。 给 定 这 样 一 个 路 由 选择 架构 
可 以 建立 不 同 的 服务 ， 例 如 一 个 使 用 文件 名 作为 对 象 名 的 文件 共享 服务 。 为 了 定位 文件 ， 
首先 计算 名 字 的 散 列 值 ， 得 到 对 应 的 对 象 ID， 然 后 将 一 条 “定位 对 象 消 息 ” 路 由 到 这 个 
ID。 为 了 提高 可 用 性 ， 系 统 也 可 以 把 它 复 制 到 多 个 节点 上 。 将 多 个 备份 存储 在 给 定 文件 通 
常 被 路 由 到 的 节点 的 叶 集 上 ， 就 是 这 样 做 的 一 种 方法 。 记 住 ， 即 使 这 些 节 点 在 ID 空间 中 
是 邻居 ， 它 们 也 可 能 在 物理 上 散布 于 因特网 上 。 因 此 ， 虽 然 一 座 城 市 断 电 可 能 会 在 物理 上 
关闭 传统 文件 系统 中 的 文件 备份 ， 但 在 对 等 网 上 发 生 这 样 的 故障 时 ， 就 可 能 会 保全 一 个 或 
多 个 备份 。 

除 文件 共享 以 外 的 其 他 服务 也 能 建立 在 分 布 式 散 列 表 之 上 ， 例 如 多 播 应 用 不 是 从 网 格 
构建 多 播 树 ， 而 是 用 结构 化 覆盖 的 边 构 建 它 ， 从 而 可 以 在 几 个 应 用 和 多 播 组 之 间 分 挫 覆 盖 
构建 和 维护 的 开销 。 
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3. BitTorrent | 

BitTorrent 是 Bram Cohen 设计 的 对 等 文件 共享 协议 。 它 是 以 复制 文件 或 复制 被 称 为 
片 (piece) 的 文件 段 为 基础 的 。 通 常 ， 任 何 一 个 片 都 能 从 多 个 对 等 方 下 载 ， 即 使 只 有 一 个 
对 等 方 有 整个 文件 。BitTorrent 的 主要 优点 是 避免 了 因 一 个 文件 只 有 一 个 源 而 引起 的 瓶 
颈 。 考虑 到 一 些 计算 机 通过 因特网 链 路 提供 文件 服务 时 速率 有 限 ， 特 别 是 大 多 数 宽带 网 络 
”的 非 对 称 性 造成 速率 极 低 ， 此 时 BitTorrent 的 优势 更 加 有 用 。BitTorrent 的 精华 在 于 复制 
是 下 载 过 程 的 一 个 自然 的 副产品 当 一 个 对 等 方 下 载 一 个 特定 片 时 ， 它 就 成 为 该 片 的 为 一 
个 源 。 下 载 该 文件 的 片 的 对 等 方 越 多 ， 片 的 复制 就 越 多 ， 从 而 均衡 地 分 配 负 载 。 片 的 下 载 
是 以 随机 顺序 进行 的 ， 从 而 避免 所 有 对 等 方 都 发 现 缺 少 同一 个 片 集 合 的 情况 。 

每 一 个 文件 都 通过 它 自己 的 独立 BitTorrent 网 络 被 共享 ， 该 网 络 被 称 为 群 (swarm). 
(一 个 群 可 能 潜在 地 共享 一 组 文件 ， 但 我 们 为 了 简单 只 描述 一 个 文件 的 情况 。〉 一 个 典型 群 
的 生命 周期 如 下 。 群 初始 时 是 一 个 有 文件 完整 备份 的 对 等 方 。 一 个 想 下 载 该 文件 的 市 点 加 
人 该 群 ， 称 为 第 二 个 成 员 ， 并 开始 从 
第 一 个 对 等 方 下 载 文件 的 片 。 在 下 载 
过 程 中 ， 它 成 为 已 下 载 片 的 男 一 个 源 ， 
即使 此 时 它 还 没有 下 载 完整 个 文件 。 
(事实 上 ， 对 等 方 在 完成 下 载 后 立即 离 
FRM AE OL, BARE Ne 
得 再 长 一 些 .) 其 他 节点 加 入 该 群 并 开 
台 从 多 个 对 等 方 下 载 片 ， 而 不 只 是 第 
一 个 对 等 方 ( 见 图 9-29). 

如 果 该 文件 保持 很 高 的 需求 量 ， 图 9-29 BitTorrent 群 中 的 一 个 对 等 方 从 其 他 可 能 
那么 一 群 新 对 等 方 会 蔡 代 那些 离开 的 还 没有 整个 文件 的 对 等 方 下 载 文件 
对 等 方 ， 因 此 群 会 永远 保持 活力 ; 否则 ， 群 会 萎缩 到 只 包括 第 一 个 对 等 方 的 情况 ， 下 到 有 
新 对 等 方 加 入 该 群 。 

既然 我 们 已 经 总 览 了 BitTorrent， 我 们 可 以 问 一 下 请 求 是 如 何 补 路 由 到 拥有 给 定 厂 的 
对 等 方 的。 为 了 提出 请 求 ， 一 个 想 要 成 为 下 载 者 的 节点 必须 先 加 入 群 。 它 要 从 下 载 一 个 包 
含 文件 和 群 的 维护 信息 的 .torrent 文件 开始 。. torrent 文件 很 容易 复制 ， 它 一 般 是 从 Web 
服务 般 下 载 的 ， 并 通过 跟踪 网 页 中 的 链接 来 发 现 。 它 包含 : 

。 目标 文件 的 大 小 。 

。 FW. 

。 为 每 个 片 预计 算 的 SHA-1 BONE CL 8.1.4 节 )。 

。 和 群 跟踪 器 (tracker) AY URL, 

跟踪 器 是 一 个 跟踪 群 的 当前 成 员 关 系 的 服务 器 。 我 们 会 在 后 面 看 到 可 以 将 BitTorrent 
扩展 成 不 需要 这 个 集中 点 ， 因 为 它 的 存在 会 引起 潜在 的 瓶颈 或 故障 。 

想 要 成 为 下 载 着 的 节 点 通过 回 跟 踪 器 发 送 一 条 包含 其 网 络 地 址 以 及 为 目 己 产生 的 一 个 
随机 对 等 方 ID 的 消息 来 加 入 群 ， 成 为 一 个 对 等 方 。 该 消息 还 包括 . torrent 文件 主要 部 分 
的 SHA-1 散 列 值 ， 该 值 被 用 作 群 的 ID. | | | 

将 新 对 等 方 称 为 P。 跟 踪 器 用 一 个 包含 部 分 对 等 方 ID 和 网 络 地 址 的 列表 来 回应 P，P 








与 其 中 的 一 些 对 等 方 建立 TCP 连接 。 注 意 ，P 只 是 与 群 的 一 个 子 集 直接 相连 ， 虽 然 它 可 
能 决定 联系 更 多 的 对 等 方 ， 甚 至 向 跟踪 器 请 求 更 多 的 对 等 方 。 为 了 在 建立 了 TCO 连接 之 
后 与 特定 对 等 方 建立 BitTorrent 连接 ，P 发 送 自己 的 ID 和 群 ID， 而 对 等 方 会 以 自己 的 ID 
和 和 群 ID 回应 。 如 果 群 ID 不 匹配 或 者 回应 对 等 方 的 IP 不 是 P 所 期 望 的 ID, 该 连接 就 
终止 。 

所 得 到 的 BitTorrent 连接 是 对 称 的 : 每 一 端 都 能 从 另 一 端 下 载 文件 。 每 一 端 开 始 都 会 
给 对 方 发 送 一 个 位 图 来 报告 自己 拥有 的 片 ， 因 此 每 一 个 对 等 方 都 知道 对 方 的 最 初 状 态 。 每 
当下 载 者 D 下 载 完 一 个 片 时 ， 它 就 问 与 它 直 接 相连 的 对 等 方 发 送 一 条 标识 该 片 的 消息 ， 这 
样 那些 对 等 方 就 能 更 新 有 关 D 的 状态 的 内 部 表示 。 这 就 是 对 下 载 请 求 如 何 被 路 由 到 拥有 该 
厂 的 对 等 方 这 个 问题 的 最 终 答案 ， 因 为 它 意味 着 每 个 对 等 方 都 知道 哪个 直接 相连 的 对 等 方 
拥有 该 片 。 如 果 D 需要 一 个 在 所 有 连接 中 都 不 存在 的 片 ， 那 么 它 会 连接 到 更 多 的 或 不 同 的 
对 等 方 ( 它 能 从 跟踪 器 得 到 更 多 的 对 等 方 )， 或 者 先 处 理 其 他 片 并 希望 它 的 一 些 连接 能 
从 它们 的 连接 得 到 那个 片 。 

如 何 将 对 象 一 一 在 本 例 中 是 片 一 一 映射 到 对 等 方 节点 ? 当然， 每 个 对 等 方 最 终 得 到 所 
有 片 ， 因 此 该 问题 实际 上 是 在 对 等 方 拥有 所 有 片 以 前 的 某 个 给 定时 间 ， 它 拥有 哪些 片 ， 或 
者 也 可 以 等 价 描述 为 对 等 方 下 载 片 的 顺序 。 答 案 是 它们 以 随机 顺序 下 载 片 ， 以 防止 它们 拥 
有 任何 其 他 对 等 方 的 片 的 严格 的 子 集 或 超 集 。 

目前 所 描述 的 BitTorrent 使 用 一 个 集中 的 跟踪 器 ， 它 会 成 为 群 的 故障 点 ， 并 最 终 可 能 
成 为 性 能 瓶 贷 。 同 时 ， 提 供 跟 躁 妖 对 于 想 通 过 BitTorrent 提供 文件 的 人 来 说 是 一 件 烦 人 的 
事 。 新 版 本 的 BitTorrent 还 支持 使 用 基于 DHT 实现 的 无 跟踪 器 群 。 具 有 无 跟踪 器 能 力 的 
BitTorrent 客户 端 软件 不 但 要 实现 一 个 BitTorrent 对 等 方 ， 还 要 实现 一 个 我 们 称 为 对 等 方 
探测 器 (peer finder， 相 应 的 BitTorrent 术语 就 是 一 个 简单 的 节点 ) 的 部 分 ， 用 于 帮助 对 
等 方 发 现 其 他 对 等 方 。 

对 等 方 探 测 需 构成 它们 目 己 的 履 兽 网 络 ， 用 它们 目 己 的 协议 在 UDP 上 实现 一 个 
DHTIT。 另 外 ， 对 等 方 探 测 器 网 络 包含 相关 对 等 方 属于 不 同 群 的 对 等 方 探测 右 。 换 句 话 说 ， 
每 个 群 形成 了 BitTorrent 对 等 方 的 不 同 网 络 ， 而 对 等 方 探测 器 网 络 跨 越 多 个 群 。 

对 等 方 探测 器 随机 产生 自己 的 探测 器 ID， 与 群 ID 的 长 度 相同 (160 位 ) 。 每 个 探测 器 
维护 一 个 适度 的 表 ， 其 中 包含 具有 与 自己 的 ID 接近 的 主要 探测 硕 〈 和 它们 的 相关 对 等 
方 )， 再 加 上 一 些 ID 较 远 的 探测 器 。 下 面 的 算法 确保 了 具有 与 给 定 群 ID 接近 的 探测 器 很 
可 能 知道 来 目 该 群 的 对 等 方 ， 这 个 算法 同时 提供 了 一 种 查询 方法 。 当 探测 大 下 需要 找到 来 
白 特 定 群 的 对 等 方 时 ， 它 就 向 表 中 具有 与 群 ID 接近 的 探测 器 发 送 一 个 请 求 。 如 果 所 联系 
的 探测 器 知道 来 自 该 群 的 任何 对 等 方 ， 它 就 以 对 等 方 的 联系 信息 作为 回应 。 否 则 ， 它 以 表 
中 接近 该 群 的 探测 器 的 联系 信息 作为 回应 ， 这 样 下 就 能 以 迭代 方式 查询 那些 探测 疾 。 

搜索 完成 后 ， 因 为 没有 接近 群 的 探测 器 ， 所 以 下 将 自己 的 联系 信息 和 相关 对 等 方 插 入 到 
与 群 最 接近 的 探测 器 。 实 际 结果 是 一 个 特定 群 的 对 等 方 进入 与 该 群 接近 的 探测 右 的 表 中 。 

上 述 方案 假设 Ff 已 经 是 探测 医 网 络 的 一 部 分 ， 也 就 是 说 它 已 经 知道 如 何 与 其 他 探测 冀 
联系 。 这 种 假设 对 于 以 前 运行 的 探测 器 安装 是 正确 的 ， 因 为 它们 会 保存 其 他 探测 器 的 信 
息 ， 甚 至 在 执行 过 程 中 也 会 保存 。 如 果 群 使 用 跟踪 器 ， 它 的 对 等 方 能 够 告诉 它们 的 探测 器 
关于 其 他 探测 器 的 信息 〈 反 转 对 等 方 和 探测 器 的 角色 )， 因 为 BitTorrent 对 等 协议 扩展 后 
能 够 交换 探测 器 联系 信息 。 但 是 一 个 新 安装 的 探测 器 如 何 发 现 其 他 探测 需 ? A et 
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RENN . torrent 文件 包含 一 个 或 多 个 探测 器 的 联系 信息 ， 而 不 是 跟踪 器 的 URL， 以 便 适 应 
那 种 情况 。 

BitTorrent 的 一 个 非 同 寻 常 的 方面 是 它 正 面 解 决 公平 问题 或 好 “网 络 公民 ”问题 。 协 
议 通常 依赖 于 每 一 个 用 户 的 良好 行为 但 并 不 能 强制 。 例 如 ， 一 个 肆 无 尽 悦 的 以 太 网 对 等 方 
使 用 一 种 比 指数 回 退 算法 更 贪 榴 的 回 退 算法 来 得 到 更 好 的 性 能 ， 或 者 一 个 肆 无 鼠 尽 的 TCP 
对 等 方 通过 不 参与 拥塞 控制 来 得 到 更 好 的 性 能 。 

BitTorrent 所 依赖 的 良好 行为 是 对 等 方 为 其 他 对 等 方 上 传 片 。 因 为 典型 的 BitTorrent 
只 是 想 尽快 下 载 文件 ， 因 此 实现 一 个 试图 下 载 所 有 片 而 只 上 传 尽量 少 的 片 的 对 等 方 一 一 这 
是 一 个 坏 对 等 方 一 一 是 很 有 诱惑 力 的 。 为 了 阻止 坏 行为 ，BitTorrent 协议 包含 了 一 种 机 
制 ， 人 允许 对 等 方 互相 奖励 或 惩罚 。 如 果 一 个 对 等 方 因为 没有 很 好 地 为 另 一 个 对 等 方 上 传 片 
而 造成 行为 不 当 ， 第 二 个 对 等 方 可 以 阻塞 (choke) 这 个 坏 对 等 方 ， 它 可 以 决定 至 少 暂时 
不 向 这 个 坏 对 等 方 上 传 片 ， 并 发 送 一 条 消息 告诉 它 。 还 有 一 种 消息 类 型 用 于 告诉 一 个 对 等 
方 它 已 经 被 解 阻 塞 了 。 阻 塞 机 制 也 被 对 等 方 用 来 限制 活动 BitTorrent 连接 的 数量 ， 以 便 保 
持 良 好 的 TCP 性 能 。 有 很 多 可 能 的 阻塞 算法 ， 而 设计 一 个 好 的 算法 是 一 种 艺术 。 


9.4.3 内 容 分 发 网 络 


我 们 已 经 看 到 了 运行 在 TCP 上 的 HTTP 是 怎样 让 Web 浏览 器 从 Web IRS 48 EII 
网 页 的 。 然 而 ， 任 何 无 休止 地 等 待 一 个 网 页 返回 的 人 都 知道 这 样 的 系统 绝 非 完美 。 考 虑 到 
目前 因特网 的 主干 建立 在 OC-192 (10Gbps) 链 路 上 上， 出现 这 种 情况 的 原因 并 不 明显 。 普 
遍 的 共识 是 当 你 下 载 网 页 时 ， 系 统 中 存在 四 个 潜在 的 瓶颈 ， 7 

。 第 一 英里 ,因特网 中 可 能 有 高 容量 链 路 ， 但 当 你 通过 56kbps 的 调制 解 调 器 或 性 能 
很 差 的 3G 无 线 链 路 连接 时 ， 它 不 能 帮 你 更 快 地 下 载 一 个 网 页 。 
最 后 一 英里 ,将 服务 器 与 因特网 相连 的 链 路 可 能 因 请 求 太 多 而 超载 ， 虽 然 链 路 的 
带宽 很 高 。 


服务 器 本 身 ， 服务 器 具有 有 限 的 资源 “(CPU、 内 存 、 磁 盘 带 宽 等 )， 会 因为 过 多 的 
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并 发 请 求 而 超载 。 
。 对 等 点 : 少数 共同 实现 因特网 主干 的 ISP 可 能 在 其 内 部 有 高 带宽 管道 ， 但 是 没有 


什么 推动 力 使 它们 对 其 对 等 点 提供 高 容量 连接 。 如 果 你 连接 到 ISP A 而 服务 器 连 
接 到 ISP B， 那 么 你 请 求 的 页 面 可 能 会 在 A 和 B 相互 对 等 的 点 被 丢弃 。 

要 解决 第 一 个 问题 ， 除 了 你 之 外 别人 做 不 了 什么 。 但 利用 备份 技术 有 可 能 处 理 其 他 问 
题 。 做 这 件 事 的 系统 通常 称 为 内 容 分 发 网 络 (Content Distribution Network, CDN)。Ak- 
amai 可 能 是 最 著名 的 CDN. 

CDN 的 思想 是 在 地 理 上 分 布 一 组 服务 器 代理 (server surrogate) 来 缓存 那些 通常 在 
”一 组 后 端 服务 器 (backend server) 上 维护 的 网 页 。 于 是 在 大 型 新 闻 事 件 发 生 时 ， 不 必 让 
几 百 万 人 为 了 连接 www. cnn. com 而 无 休止 地 等 待 一 一 这 种 情形 称 为 突 发 聚集 Clash 
crowd) 一 一 把 这 样 的 负载 分 布 到 多 台 服 务 器 上 是 有 可 能 的 。 此 外 ， 不必 遍历 多 个 ISP A 
到 达 www. cnn. com。 如 果 这 些 代 理 服务 器 分 散在 所 有 主干 网 ISP 上 ， 那 么 就 有 可 能 到 达 
其 中 一 台 服 务 器 而 不 需 经 过 对 等 点 。 显 然 对 于 一 个 想 要 为 其 网 页 提供 更 高 效 访问 的 网 站 ， 
在 因特网 上 维护 数 以 千 计 的 代理 服务 器 的 代价 太 昂贵 了 。 商 用 CDN 为 很 多 网 站 提供 这 项 
服务 ， 从 而 使 这 个 代价 由 很 多 客户 分 担 。 





尽管 我 们 把 它们 称 为 代理 服务 器 ， 事 实 上， 把 它们 看 作 是 高 速 缓 存 也 是 正确 的 。 如 果 
设 有 客户 所 请 求 的 页 面 ， 它 们 会 向 后 端 服务 器 请 求 。 然 而 在 实践 中 ， 后 端 服务 器 提前 把 它 
们 的 数据 复制 给 代理 ， 而 不 是 等 代理 在 需要 时 请 求 。 同 样 ， 只 有 与 动态 内 容 相 反 的 静态 网 
页 才 分 布 到 代理 上 。 用 户 需 要 到 后 端 服务 器 上 获取 所 有 频繁 变化 的 内 容 〈 例 如 体育 比分 和 
股票 报价 ) 或 是 由 某 种 计算 结果 给 出 的 内 容 〈 例 如 一 条 数据 库 查 询 ) 。 

拥有 地 理 上 分 布 的 一 个 庞大 的 服务 器 集合 并 不 能 完全 解决 问题 。 为 了 完整 起 见 ，CDN 
还 需 提 供 一 组 能 够 把 客户 请 求 转 发 给 最 合适 的 服务 器 的 重 定 向 器 (redirector), tp K] 9-30 
BAS . HERE [Al do AY SE BE El py E A BE TOR E FEE A S ER BH A] C response 
time) 的 服务 器 ， 其 次 是 让 整个 系统 在 底层 硬件 (网 络 链 路 和 网 页 服务 器 能 够 支持 的 情 
况 下 每 秒 钟 处 理 尽 可 能 多 的 请 求 。 在 一 段 给 定时 间 内 所 能 满足 的 请 求 的 平均 数量 称 为 
AIL (system throughput) 一 一 是 系统 负载 很 重 时 的 主要 问题 ， 例 如 ， 当 突 发 聚集 
访问 少数 网 页 或 分 布 式 拒绝 服务 (DDoS) 攻击 者 瞄准 某 个 网 站 时 ， 就 像 2000 年 2 月 
CNN, Yahoo 和 其 他 几 个 著名 的 网 站 遇 到 的 情况 一 样 。 
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地 理 上 分 布 的 
代理 服务 器 


分 发 网 络 (CDN) 的 组 成 部 分 


CDN 根据 多 个 因素 来 决定 如 何 分 发 客户 请 求 。 例 如 ， 为 了 减少 响应 时 间 ， 重 定 同 瞻 
可 能 根据 网 络 接 近 程 度 (network proximity) 来 选择 服务 器 。 相 反 ， 为 了 提高 系统 的 总 否 
吐 量 ,希望 在 一 组 服务 器 上 均匀 地 平衡 (balance) 负载 。 如 果 分 发 机 制 把 位 置 (locality) 
作为 考虑 因素 就 能 提高 吞吐 量 并 缩短 响应 时 间 ， 也 就 是 说 ， 选 择 一 个 在 它 的 高 速 缓存 中 可 
能 已 包含 被 请 求 网 页 的 服务 器 。CDN 应 采用 的 因素 组 合 是 公开 争论 的 问题 。 本 节 考 虑 一 
些 可 能 性 。 

1. 机 制 

在 目前 的 描述 中 ， 重 定向 器 只 是 一 个 抽象 的 功能 ， 尽 管 这 听 起 来 像 要 求 路 由 器 做 的 
事 ， 因 为 从 逻辑 上 讲 它 像 路 由 器 转发 分 组 一 样 转发 请 求 消息 。 事 实 上 ， 有 多 种 机 制 可 以 用 
来 实现 重 定 向 。 注 意 ， 为 方便 讨论 ， 我 们 假设 每 个 重 定 向 器 都 知道 所 有 可 达 服 务 器 的 地 
址 。( 从 这 里 开始 我 们 丢弃 “代理 ”这 个 词 而 只 称 其 为 一 组 服务 器 。〉 在 实践 中 ， 服 务 器 会 


出 现 和 消失 ， 可 以 通过 某 种 形式 的 带 外 通信 使 这 些 信 息 保 持 最 新 。 

首先 ， 可 以 通过 调整 DNS 给 客户 返回 不 同 服务 器 地 址 的 方法 实现 重 定向 。 例 如 ， 当 
客户 要 求解 析 域 名 www. cnn. com 时 ，DNS 服务 器 会 返回 保存 CNN 的 Web 网 页 的 已 知 具 
有 最 轻 负载 的 服务 器 IP 地 址 。 另 一 种 方法 是 ， 对 于 给 定 的 一 组 服务 器 ，DNS 服务 器 可 能 
只 是 以 轮转 的 方式 返回 地 址 。 注 意 基 于 DNS 的 重 定向 机 制 的 粒度 通常 是 网 站 级 〈 例 如 
cnn. com) 而 不 是 某 个 特定 的 'URL (例如 http://www. cnn. com/2002/world/europe/06/ 
21/william. birthday/index. html) 。 然 而 ， 当 返回 一 个 明和 人 式 链 接 时 ， 服 务 需 会 重 与 
URL， 这 样 就 有 效 地 将 客户 指向 最 适合 那个 特定 对 象 的 服务 器 。 

商用 CDN 本 质 上 结合 使 用 URL 重 写 和 基于 DNS 的 重 定 向 。 出 于 可 扩展 性 原因 ， 高 
级 DNS 服务 器 先 指向 一 个 能 返回 实际 服务 器 地 址 的 区 域 级 DNS 服务 器 。 为 了 对 变化 做 出 
快速 响应 ，DNS 服务 器 把 它们 返回 的 资源 记录 的 TTL 改 成 一 段 很 短 的 时 间 ， 比 如 20 秒 。 
这 样 做 是 必要 的 ， 使 得 客户 不 再 缓存 结果 ， 并 因此 不 能 返回 DNS 服务 器 查找 最 新 的 URL 
到 服务 器 的 映射 。 

另 一 种 可 能 性 是 使 用 HTTP 的 重 定向 特性 ;客户 向 服务 器 发 一 条 请 求 消息 ， 服 务 器 
响应 一 个 为 获得 网 页 的 客户 所 应 联系 的 新 的 (更 好 的 ) 服务 器 。 不 幸 的 是 ， 基 于 服务 器 的 
重 定向 会 导致 在 因特网 上 的 额外 往返 时 间 ， 更 糟糕 的 是 ， 服 务 器 容易 因为 重 定 向 任务 而 使 
本 身 超载 。 然 而 ， 如 果 客 户 附 近 有 一 个 节点 一 一 例如 一 个 本 地 Web 代理 一 一 知道 哪些 服 
务 器 可 用 ， 它 就 可 以 拦截 请 求 消息 并 指示 客户 从 合适 的 服务 器 请 求 网 页 。 在 这 种 情况 下 ， 
要 么 重 定向 系统 需要 处 在 所 有 离开 网 站 的 请 求 都 会 通过 的 咽喉 要 道 ， 要 么 客户 将 不 得 不 通 
过 显 式 定 位 代理 〈 就 像 一 个 典型 的 非 透明 代理 那样 ) 的 方式 协作 。 

到 了 这 里 ， 你 可 能 在 想 CDN 到 底 和 覆盖 网 络 有 什么 关系 ， 尽 管 把 CDN 看 成 是 覆盖 有 
一 点 夸大 其 词 ， 但 它们 的 确 有 一 个 非常 重要 的 共同 特征 。 像 覆盖 节点 那样 ， 一 个 基于 代理 
的 重 定向 器 会 做 出 应 用 级 路 由 选择 决定 。 它 不 会 根据 地 址 以 及 它 对 网 络 拓扑 的 了 解 来 转发 
分 组 ， 它 会 根据 URL 以 及 它 对 某 组 服务 器 的 方位 和 负载 的 了 解 来 转发 HTTP 请 求 。 现 今 
的 因特网 体系 结构 并 不 直接 支持 重 定 向 一 一 “直接 ”的 意思 是 指 客户 把 HTTP 请 求 发 给 
重 定 向 器 ， 由 重 定向 器 转发 给 目标 一 一 所 以 通常 让 重 定向 器 返回 合适 的 目标 地 址 并 让 客户 
自行 联系 服务 器 来 间接 实现 重 定向 。 

2. 策略 

现在 我 们 来 考虑 一 些 重 定向 器 转发 请 求 时 可 能 用 到 的 典型 策略 。 实 际 上 ， 我 们 已 经 提 
出 了 一 个 简单 的 策略 一 一 轮转 策略 。 一 个 类 似 的 方案 是 简单 地 在 可 用 服务 器 中 随机 选择 一 
台 服 务 器 。 两 个 方法 都 能 够 很 好 地 把 负载 均匀 散布 到 CDN 上 ,但 它们 并 没有 很 好 地 缩减 
客户 感受 到 的 响应 时 间 。 

很 明显 ， 这 两 个 方案 都 没有 把 网 络 接近 程度 考虑 在 内 ， 同 时 ， 它 们 还 忽略 了 位 置 。 
也 就 是 说 ， 对 同一 URL 的 请 求 被 转发 给 不 同 服务 器 ， 使 得 由 所 选 服务 器 内 存 中 的 缓存 
来 提供 网 页 的 可 能 性 变 小 了 。 这 使 服务 器 不 得 不 从 磁盘 甚至 后 端 服务 器 上 取 回 网 页 。 — 
组 分 布 在 各 地 的 重 定向 器 如 何在 不 经 过 全 局 协调 的 情况 下 把 对 同一 网 页 的 请 求 发 往 同一 
服务 器 〈 或 一 小 组 服务 器 )? 答案 出 奇 的 简单 ， 所 有 重 定向 器 都 使 用 某 种 形式 的 散 列 法 
把 URL 确定 地 映射 到 一 个 小 的 取 值 范围 。 这 个 方法 的 主要 好 处 是 不 需要 为 了 协调 操作 
而 进行 任何 重 定向 器 之 间 的 通信 ， 不 管 娜 个 重 定 向 器 收 到 URL， 散 列 过 程 都 能 产生 相 























同 的 输出 。 

那么 什么 是 好 的 散 列 方案 ? 经 典 的 取 模 (modulo) 散 列 方案 一 一 用 散 列 法 处 理 每 个 
URL 时 ， 以 服务 器 数目 作 模 数 不 适合 这 种 环境 。 这 是 因为 如 果 服 务 器 数目 改变 ， 取 
模 运 算 的 结果 会 使 得 越 来 越 少 的 网 页 能 保持 分 配 到 相同 服务 器 。 虽 然 我 们 不 希望 服务 器 集 
合 频 繁 变化， 但 在 集合 中 添加 新 服务 器 将 引起 人 们 不 愿 看 到 的 大 规模 重新 分 配 。 

太一 个 办 法 是 使 用 9. 4. 2 节 中 讨论 过 的 一 致 散 列 (consistent hashing) 算法 。 具 体 来 
讲 ， 每 个 重 定向 器 先 把 所 有 服务 器 散 列 变换 到 单位 圆 中 ， 然 后 对 于 每 个 到 达 的 URL， 重 
ETA aed URL 也 散 列 变换 成 单位 圆 上 的 一 个 值 ， 最 后 URL 被 指定 给 圆 上 离 它 的 散 列 值 最 
近 的 服务 句 。 如 果 这 个 方案 中 的 一 个 节点 出 现 故 障 ， 其 负载 将 被 转移 给 它 的 邻居 (在 单位 
加 上 )。 这 样 次 加 或 移 走 一 台 服 务 器 只 会 使 请 求 分 配 在 局 部 发 生变 化 。 注 意 ， 与 对 等 网 的 
情况 不 同 的 是 ， 对 等 网 上 一 条 消息 从 一 个 节点 路 由 至 另 一 节点 为 的 是 找到 其 ID 离 目 标 最 
近 的 服务 占 ， 每 个 重 定 问 妖 知 道 这 组 服务 右 是 如 何 映射 到 单位 贺 上 的 ， 所 以 它们 可 以 各 自 
独立 地 选择 “最 近 ” 的 服务 器 。 

这 种 策略 很 容易 通过 扩展 以 考虑 服务 器 负载 。 假 设 重 定 向 器 知道 每 个 可 用 服务 器 当前 
的 负载 ， 这 些 信息 不 一 定 是 最 新 的 ， 但 我 们 可 以 想象 重 定向 器 只 对 前 几 秒 内 它 向 某 个 服务 
髓 转发 请 求 的 次 数 进 行 计 数 ， 并 把 这 个 计数 作为 该 服务 器 当前 负载 的 估计 值 。 当 收 到 一 个 
URL if, EERIE URL 加 上 每 个 可 用 的 服务 器 ， 并 将 结果 值 排序 。 这 个 排 
序列 表 有 效 地 定义 了 重 定 同 右 所 考虑 的 可 用 服务 右 的 顺序 。 于 是 重 定 癌 占 顺 序 访问 列表 直 
到 它 找到 负载 低 于 某 一 国 值 的 服务 般 。 与 普通 的 一 致 散 列 法 相 比 ， 这 种 方法 的 好 处 在 于 每 
个 URL 午 有 不 同 的 服务 需 顺 序 与 之 对 应 。 所 以 如 果 一 台 服 务 需 发 生 故 阶 ， 它 的 负载 将 被 
均匀 地 分 布 到 其 他 机 器 上 。 这 种 方法 是 高 速 缓存 阵列 路 由 协议 (Cache Array Routing Pro- 
tocol, CARP)〉 的 基础 ， 以 下 是 其 伪 代 码 表 示 : 


SelectServer(URL,S) 

for 服务 器 集合 S 中 的 每 人 台 服 务 器 S， 
weight;=hash(URL,address(s,)) 

排序 weight | 

for 递减 序列 weight; 中 的 每 合 服务 器 s; 
if Load(s;)<threshold then 

return s; 
return weight R E WRIA 


随 着 负载 的 增加 ， 这 个 方案 从 只 使 用 列表 上 的 第 一 台 服 务 硕 变 为 将 请 求 分 散 到 多 人 台 服 
务 器 上 。 一 些 通常 由 “繁忙 ”服务 右 人 处理 的 网 页 也 将 由 相对 不 太 忙 的 服务 右 处 理 。 因 为 这 
个 过 程 的 依据 是 服务 器 负载 的 聚集 而 不 是 单个 网 页 的 受 欢 迎 程度 ， 保 存 某 些 受 欢迎 网 页 的 





服务 器 可 能 找到 更 多 分 担 其 负载 的 服务 絮 而 不 是 共同 保存 不 受 欢 迎 网 页 的 服务 器 。 在 此 过 


程 中 ， 一 些 不 受 欢迎 的 网 页 会 在 系统 中 被 复制 ， 这 仅仅 是 因为 它们 恰好 主要 被 存储 在 繁忙 
的 服务 器 上 。 同 时 ， 如 果 一 些 网 页 变 得 非常 受 欢 迎 ， 可 以 想象 ， 所 有 系统 中 的 服务 器 都 可 
能 有 责任 提供 它们 。 

最 后 ， 可 以 用 至 少 两 种 不 同 的 方法 把 网 络 接近 程度 引入 等 式 中 。 第 一 种 方法 是 通过 监 
视 服务 器 响应 请 求 的 时 间 长 短 并 把 这 个 测量 值 作为 “服务 器 负载 ”参数 运用 到 前 面 的 算法 . 
中 ， 这 使 得 服务 器 负载 和 网 络 接近 程度 之 间 的 区 别 变 得 模糊 。 这 种 策略 倾向 于 选择 邻近 的 
或 负载 轻 的 服务 器 而 不 是 远 处 的 或 负载 重 的 服务 器 。 第 二 种 方法 是 在 较 早 的 阶段 限制 候选 
的 服务 器 集合 使 其 只 包括 附近 的 服务 器 ， 这 样 就 使 接近 程度 成 为 决定 因素 之 一 。 更 难 的 问 
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题 是 如 何在 可 用 的 很 多 服务 器 中 确定 哪个 离 得 较 近 。 一 种 方法 是 只 选择 与 客户 在 相同 ISP 
上 的 可 用 服务 器 。 一 种 稍微 复杂 一 点 的 方法 是 查看 由 BGP 生成 的 目 治 系统 图 ， 并 且 只 选 
择 那 些 从 客户 出 发 ， 在 一 定 跳 数 内 可 达 的 服务 器 作为 候选 者 。 在 网 络 接近 程度 和 服务 右 绥 
存 位 置 之 间 寻找 平衡 是 正在 研究 的 谋 题 。 


9.5 小 结 


我 们 已 经 看 到 了 两 种 应 用 最 广泛 的 基于 客户 /服务 器 的 应 用 协议 : 用 于 交换 电子 邮件 
的 SMTP， 用 于 在 万 维 网 中 漫游 的 HTTP。 我 们 看 到 了 应 用 到 应 用 通信 如 何 驱 动 诸如 
SOAP 和 REST 等 新 的 协议 开发 框架 的 发 明 。 我 们 还 研究 了 会 话 控制 协议 ， 如 SIP 和 
H. 323， 它 们 用 于 控制 多 媒体 应 用 ， 如 IP 语音 。 除 了 这 些 应 用 协议 ， 我 们 还 看 到 了 一 些 
关键 的 支撑 协议 ， 用 于 域名 系统 的 DNS 协议 ， 用 于 为 网 络 管理 查询 远程 节点 的 SNMP th 
议 。 最 后 ， 我 们 看 到 了 新 兴 的 应 用 一 一 包括 覆盖 、 对 等 网 和 内 容 分 发 网 络 一 一 以 创新 的 方 
式 融合 应 用 处 理 和 分 组 转发 。 A 

应 用 协议 也 是 很 奇怪 的 。 在 许多 方面 ， 传 统 的 客户 /服务 器 应 用 像 是 另 一 层 传输 协议 ， 
不 同 的 是 它们 有 内 嵌 的 特定 应 用 的 知识 。 你 可 以 认为 它们 不 过 是 特殊 化 的 传输 协议 ， 并 上 且 
这 些 传输 协议 层 层 释 加 直至 产生 应 用 所 需要 的 准确 服务 。 类 似 地 ， 履 盖 和 对 等 网 协议 可 以 
看 作 是 提供 一 种 可 选 的 路 由 体系 结构 ， 但 同样 也 是 为 一 个 特定 应 用 的 需求 而 定制 的 。 我 们 
从 这 个 观察 结论 所 得 到 的 实际 经 验 是 设计 应 用 层 协议 确实 与 设计 核心 网 络 协议 没有 什么 区 - 
别 ， 而 且 对 核心 网 络 协议 了 解 得 越 多 ， 那 么 对 设计 应 用 层 协 议 越 有 帮助 。 我 们 还 发 现 系统 
方法 一 一 理解 功能 及 组 件 是 如 何 交互 来 构建 一 个 完整 系统 的 一 一 在 设计 应 用 时 应 该 与 在 设 
计 联 网 其 他 方面 时 用 得 一 样 多 。 





体系 结构 


在 应 用 协议 领域 正确 指出 一 个 特定 的 开放 性 问题 是 困难 的 ， 因 为 每 天 都 出 现 新 的 应 
用 ， 故 而 整个 领域 都 是 开放 的 ， 并 且 这 些 应 用 的 网 络 需求 是 与 应 用 相关 的 。 对 网 络 设计 者 
的 真正 挑战 是 清楚 随 网 络 变化 的 应 用 的 需求 是 什么 ， 以 及 这 些 变化 如 何 促使 我 们 开发 传输 
协议 ， 以 及 在 网 络 路 由 器 中 加 入 功能 。 

开发 新 的 传输 协议 是 一 个 相对 容易 处 理 的 问题 。 你 也 许 不 能 让 IETF 认可 你 的 传输 协 
议 等 同 于 TCP 或 UDP， 但 没有 什么 能 阻止 你 设计 出 世界 上 最 好 的 、 与 新 的 运行 在 UDP 
之 上 的 端 到 端 协议 相 结合 的 多 媒体 应 用 ， 就 像 RTP 所 做 的 那样 。 

另 一 方面 ， 将 特定 应 用 的 知识 放 和 人 网络 中 〈 放 和 人 路 由 器 中 ) 是 一 个 更 困难 的 问题 。 这 
是 因为 要 使 一 个 特定 应 用 生效 ， 需 要 将 所 有 新 的 网 络 服务 或 功能 装 入 许多 (如 果 不 是 全 
部 ) 因特网 路 由 器 中 。 履 盖 网 络 提供 一 种 无 需 全 部 〈 或 者 甚至 任 一 个 ) 路 由 器 的 协作 就 可 
将 新 的 功能 引入 到 网 络 中 的 方法 ， 但 从 长 远 看 ， 我 们 可 以 期 望 改变 底层 网 络 体系 结构 以 适 
Mite. Kw RON 看 到 了 这 个 问题 RON 和 BGP 路 由 选择 如 何 相 互 交 
互 一 一 并 且 随 着 覆盖 网 络 的 日 趋 盛行 我 们 预料 它 会 成 为 一 个 普遍 的 问题 ， 

一 种 可 能 性 是 不 会 出 现 另 一 种 固定 的 (fixed) 体系 结构 ， 而 下 一 代 网 络 体系 结构 将 会 
有 特别 强 的 适应 性 。 在 这 样 的 前 提 下 ， 并 不 是 定义 一 个 仅 传送 数据 分 组 的 体系 结构 ， 网 络 
体系 结构 可 能 允许 分 组 不 但 携带 数据 ， 也 将 携带 代码 〈 或 可 能 是 指向 代码 的 指针 ) 以 便 告 
诉 路 由 器 如 何 处 理 分 组 。 这 样 的 网 络 引 发 许多 问题 ， 而 不 仅仅 是 在 应 用 程序 能 有 效 地 对 路 





由 器 编程 的 情况 下 如 何 加 强 网 络 世界 安全 的 问题 。 另 一 种 可 能 性 是 网 络 的 虚拟 化 成 为 规 
范 ， 一 些 “ 片 ”提供 健壮 易 懂 旦 经 过 全 面 调试 的 服务 ， 而 其 他 的 则 用 于 实验 功能 ， 这 也 是 
研究 团体 正在 追求 的 方向 。 


我 们 的 第 一 篇 文章 提供 了 有 关 万 维 网 早期 设计 和 实现 的 有 趣 的 综述 ， 这 是 由 万 维 网 的 
发 明 者 在 万 维 网 席卷 全 球 前 写 的 。Mockapetris 和 Dunlap 对 DNS 的 发 展 做 出 了 很 好 的 描 
WR. Bia CDN 和 对 等 网 络 在 近 几 年 中 得 到 了 充分 研究 ， 最 后 六 篇 研究 论文 对 了 解 这 些 问 
题 提 供 一 个 很 好 的 起 点 。 : 

e Berners-Lee, T., R. Caillia, A. Luotonen, H. Nielsen, and A. Secret. The World- 
Wide Web. Communications of the ACM 37 (8), pages 76-82, August 1994. 

e Mockapetris, P., and K. Dunlap. Development of the Domain Name System. Proceedings 
of the SIGCOMM’ 88 Symposium, pages 123-133, August 1988. 

e Karger, D. et al. ES hashing and random trees: Distributed caching proto- 
cols for relieving hot spots on the World Wide Web. Proceedings of the ACM Sym- 
posium on Theory of Computing, Pages 694-663, May 1997. 

e Chu, Y., S.Rao, and H. Zhang. A case for End System Multicast. Proceedings 
of the ACM SIGMETRICS’00 Conference, pages 1-12, June 2000. 

e Andersen, D. et al. Resilient overlay networks. Proceedings of the 18th ACM Symposium 
on Operating Systems Principles (SOSP), pages 131-145, October 2001. 


e Rowstron, A., and P. Druschel. Storage management and caching in PAST, a large- 





scale persistent peer-to-peer storage utility. Proceedings of the 18th ACM Symposium on 
Operating Systems Principles (SOSP), pages 188-201, October 2001. | 
e Stoica, I. et al. Chord; A scalable peer-to-peer lookup service for Internet applica- 
tions. Proceedings of the ACM SIGCOMM Conference, pages 149-160, August 2001. 
e Ratnasamy, S. et al. A scalable content-addressable network. Proceedings of ACM 
SIGCOMM’01, pages 161-172, August 2001. 

SMTP 最 早 在 RFC821 [Pos82] PM, 4H, RFC 822 是 RFC 822 [Cro82], © 
们 曾经 是 IETF 术语 ， 分 别 被 [Kle01] 和 [Res01] RF. MIME 在 一 系列 RFC 中 定义 ， 
最 新 的 版 本 在 RFC 2045 [FB96] 中 定义 ， 还 有 几 个 附加 REC 补充 细 市 。 

HTTP 的 1.0 版 本 在 RFC 1945 [BLFF96] 中 说 明 ， 最 新 版 本 是 1.1， 在 RFC 2616 
[FGM+99] 中 定义 。Mogul [Mog95] 解释 了 HTTP 1.1 的 持久 连接 。 有 很 多 关于 Web 
性 能 (尤其 是 Web 缓存 ) 的 文章 。 其 中 的 一 个 好 例子 是 Danzig 关于 Web 通信 量 及 高 速 组 
存 有 效 性 方面 的 论文 LDan98j。Roy Fielding 的 博士 论文 LFie00」 是 REST 的 最 佳 参考 。 

SIP Æ RFC 3261 [SCJ+02] 中 定义 ， 其 中 包含 了 很 有 帮助 的 指南 部 分 以 及 该 协议 的 
详细 规范 ， 就 像 MIME 一 样 ， 有 很 多 其 他 的 RFC 扩展 了 SIP 协议 。 

有 大 量 讨论 命名 以 及 资源 发 现 〈 首 先 找 出 存在 什么 资源 ) 问题 的 文章 。 对 命名 的 一 般 
研究 可 在 Terry [| Ter86 |], Comer 和 Peterson LCP89 |, Birrell 等 LBLNS82 |, Saltzer 
[Sal78], Shoch [Sho78] 和 Watson [Wat81] 中 找到 ; 基于 属性 的 (描述 ) 命名 系统 在 
Peterson [Pet88] 和 Bowman 等 [BPY90] 中 描述 ; 资源 发 现 是 Bowman 等 LBDMS94 | 


的 主题 。 

网 络 管理 是 IETF 全 力 投 入 的 广泛 而 重要 的 领域 。 有 100 多 个 RFC 文档 描述 SNMP 
和 MIB 的 各 种 问题 。 然 而 ， 两 篇 关键 的 参考 文献 是 RFC 2578 [MPS99] (CEMENTS 
SNMP 版 本 2 (SNMPv2) 的 管理 信息 格式 ) 和 RFC 3416 〈 它 定义 了 SNMPv2 的 协议 操 
作 ) 。 与 SNMP/MIB 相关 的 许多 其 他 RFC 定义 对 MIB 变量 核心 集 的 扩展 ， 例 如 那些 针对 
特定 网 络 技术 或 特定 厂商 产品 的 变量 。Perkins 等 [PM97] 提供 了 对 SNMP 和 MIB 的 一 
个 很 好 的 介绍 。 

美国 国家 科学 研究 委员 会 关于 因特网 僵化 的 报告 可 以 在 CNRC] 中 找到 。 另 外 ， 使 
用 和 履 盖 网 络 引 入 创新 技术 的 建议 是 由 Peterson, Anderson, Culler 和 Roscoe | PACRO2 | 
HEH, Savage. Hoffman, Snell 和 Anderson [SGH+99] 提出 支配 BGP 路 由 的 最 早 的 
例子 。 使 用 DNS 均衡 服务 器 负载 的 思想 参见 RFC1794 [Bri95]。 关 于 Web 高 速 缓存 与 重 
SZ ARS 4s HY 问题 在 Rabinovich 和 Spatscheck 的 书 [RS02] 中 有 详尽 的 论述 。Wang、Pai 
和 Peterson LWPP02] 研究 了 重 定 回 器 的 设计 。 

最 后 ， 我 们 推荐 下 面 的 实时 参考 来 帮助 读者 跟踪 万 维 网 的 飞速 发 展 以 及 有 关 Web 服 
务 的 丰富 信息 。 

e http://www. w3. org: 万 维 网 联盟 。 


>] wel 


1. 讨论 你 将 如 何 重 写 SMTP 或 HTTP 以 利用 一 个 启发 式 的 通用 请 求 /响应 协议 。 能 将 一 个 类 似 的 持久 连 
接 从 应 用 层 协 议 移 至 这 样 的 传输 层 协议 中 吗 ? 还 有 哪些 其 他 的 应 用 任务 可 以 移 至 这 个 协议 中 ? 

2. 大 部 分 Telnet 客户 能 连接 到 端口 25 (SMTP 端口 ) 而 不 是 Telnet 端口 。 使 用 这 样 一 个 工具 ， 连 接 到 
SMTP 服务 器 并 给 你 自己 或 获得 许可 的 其 他 人 〉 发 送 某 个 伪造 的 电子 邮件 。 然 后 检查 首部 以 找 出 消 
息 不 真实 的 证 据 。 

3. 为 了 让 SMTP 和 一 个 像 sendmail 那样 的 邮件 后 台 处 理 程序 提供 一 些 措 施 以 提防 上 道 习 题 所 说 的 邮件 僵 
造 者 ， 可 以 使 用 (或 增加 〉 SMTP 的 什么 特性 ? 

4. 找 出 SMTP 主机 如 何 处 理 来 自 另 一 方 的 未 知 命令 ， 特 别 是 这 种 机 制 如 何 允 许 协 议 的 改进 (如 “扩展 的 
SMTP”)。 你 可 以 读 RFC， 也 可 以 像 习题 2 那样 连接 一 个 SMTP 服务 器 并 测试 它 对 不 存在 命令 的 
响应 。 

5. 正如 书 中 描述 的 ，SMTP 包含 几 条 小 消息 的 交换 。 在 大 多 数 情 况 下 ， 服 务 器 的 响应 不 影响 客户 的 后 续 
发 送 。 客 户 因 而 可 以 实现 命令 管道 (command pipelining) ; 在 单一 的 消息 中 发 送 多 条 命令 。 

Ca) 对 于 哪些 SMTP 命令 ， 客 户 需 要 注意 服务 器 的 响应 ? 

Cb) 假设 服务 器 用 gets O 或 等 价 的 函数 读 取 每 一 条 客户 消息 ， 它 将 读 取 一 个 串 直 到 遇见 一 个 换行 符 
《LF〉 为 止 。 当 它 检测 到 客户 已 使 用 命令 管道 之 后 ， 需 要 做 些 什么 ? 

Co) 然而 管道 可 被 茶 些 服务 嚣 中断， 研究 客户 怎样 协商 它 的 使 用 。 

6. 像 MIME 这 样 的 协议 所 面 对 的 中 心 问题 之 一 惩 玫 量 已 六 的 可 用 数据 格式 。 参考 MIME RFC 找 出 
MIME 是 怎样 处 理 新 的 或 特定 系统 的 图 像 和 文本 格式 的 。 

7. MIME 使 用 multipart/alternative 语法 来 支持 对 相同 内 容 的 多 个 表示 。 例如 ， 文 本 能 以 text/plain、 
text/richtext 和 application/ postscript 的 形式 发 送 。 虽 然 把 本 来 的 格式 放 在 普通 文本 格式 之 前 会 使 实现 
更 容易 ， 但 为 什么 你 仍 认为 普通 文本 格式 是 首选 ? 

8. 查看 有 关 MIME 的 RFC， 找 出 base64 编码 是 如 何 处 理 长 度 不 是 3 字 节 的 偶数 倍 的 二 进 制 数据 的 。 

9. POP3 邮局 协议 只 允许 客户 使 用 口令 认证 方法 获取 电子 邮件 。 通 常 ， 客 户 发 送 电 子 邮件 就 是 简单 地 将 
其 送 到 服务 器 ， 然 后 期 望 邮件 被 转发 。 
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Ca) 解释 为 什么 邮件 服务 器 经 常 不 再 允许 来 自任 意 客 户 的 此 类 转发 。 
(b) 提出 一 个 SMTP 选项 来 认证 远程 客户 。 
Co) 找 出 可 用 于 解决 这 一 问题 的 现 有 方法 。 


在 HTTP 1.0 版 本 中 ， 一 个 服务 器 通过 关闭 连接 来 标记 传输 的 结束 。 从 TCP 层 的 角度 解释 为 什么 这 
样 做 会 引起 服务 器 的 问题 。 找 出 HTTP1.1 版 本 中 怎样 避免 这 一 问题 。 一 个 通用 的 请 求 /响应 协议 会 
怎样 解决 这 个 问题 ? 

找 出 如 何 配置 HTTP 服务 器 以 便 消除 404 not found 消息 ， 取 而 代 之 的 是 返回 一 个 默认 的 (并 且 希 望 
是 更 友善 的 ) 消息 。 判 断 这 样 的 特性 是 否 是 协议 的 一 部 分 或 实现 的 一 部 分 ， 或 者 在 技术 上 协议 是 允 
许 这 样 做 的 。( 有 关 apache HTTP 服务 器 的 文档 可 在 www. apache. org 上 找到 。) 

为 什么 HTTP GET 命令 

GET http: www. cs. princeton. edu/index. html HTTP/1. 1 


含有 所 连接 的 服务 器 的 名 字 ? 服务 器 还 不 知道 它 的 名 字 吗 ? 像 习 题 2 那样 使 用 Telnet 连接 到 一 台 
HTTP 服务 箱 的 端口 80， 并 且 找 出 如 果 省 略 主机 名 后 会 发 生 什 么 事情 ? 

HTTP 在 连接 的 服务 器 端 启 动 一 个 close) 函数 ， 然 后 它 必须 在 TCP 状态 FIN-WAIT-2 等 待 客户 关 
闭 另 一 端 。TCP 协议 中 的 什么 机 制 能 帮助 HTTP 服务 器 处 理 不 合作 的 或 实现 很 糟糕 的 不 在 本 端 关闭 
连接 的 客户 。 如 有 果 可 能 的 话 ， 找 出 这 种 机 制 的 编程 接口 ， 并 指明 HTTP 服务 器 可 以 怎样 使 用 它 。 
假设 一 个 非常 大 的 Web 站 点 需要 一 种 机 制 ， 能 使 客户 按照 适当 的 度量 来 访问 多 个 HTTP 服务 器 中 
“最 接近 ”的 HTTP AR 48. 

(a) 讨论 在 HTTP 内 开发 这 种 机 制 。 

(b) 讨论 在 DNS 内 开发 这 种 机 制 。 

比较 两 种 方法 。 两 种 方法 都 能 在 不 升级 浏览 器 的 前 提 下 工作 吗 ? 

ETP 和 SMTP 这 样 的 应 用 协议 是 从 零 开 始 设计 的 ， 并 且 它 们 看 上 去 工作 得 相当 好 。 那 么 需要 Web 
服务 协议 框架 的 商家 到 商家 以 及 企业 应 用 集成 协议 工作 得 怎么 样 呢 ? 

选择 一 个 有 等 同 REST 和 SOAP 接口 的 Web 服务 ， 就 像 Amazon. com 提供 的 那些 。 比 较 等 同 的 操作 
是 如 何以 两 种 风格 被 实现 的 。 

得 到 某 些 SOAP 风格 的 Web 服务 的 WSDL， 并 选择 一 个 操作 。 对 实现 该 操作 的 消息 ， 辨 识 各 个 
字段 。 

假设 一 个 大 型 会 议 中 某 些 接收 者 能 够 以 比 其 他 人 高 得 多 的 带宽 接收 数据 。 可 以 通过 什么 实现 来 解决 
这 个 问题 ? (提示 ， 同时 考虑 会 话 公 告 协 议 (Session Announcement Protocol, SAP) 和 使 用 第 三 方 混 
频 器 的 可 能 性 。) | | 
怎样 编码 两 个 分 组 内 的 音频 〈 或 视频 ) 数据 ， 使 得 当 其 中 一 个 分 组 丢失 时 ， 分辨 率 只 是 降低 到 只 有 
一 半 带 宽 时 的 分 辨 率 ? 解释 如 果 使 用 PEG 类 型 的 编码 ， 为 什么 这 样 做 要 困难 得 多 。 
解释 统一 资源 定位 符 (URL) 和 统一 资源 标识 符 CURD 之 间 的 关系 。 给 出 一 个 URI 不 是 URL 的 
例子 。 

找 出 DNS MX 记录 除了 提供 邮件 服务 器 的 别名 之 外 ， 还 提供 哪些 其 他 特性 ， 毕 竟 服 务 器 的 别名 也 可 
由 DNS CNAME 记录 提供 。MX 记录 用 于 支持 电子 邮件 ,一 个 类 似 的 Web 记录 可 用 于 支持 
HTTP 吗 ? 

ARP 和 DNS 都 依赖 高 速 缓存 ;， ARP 高速 缓存 记录 生存 期 一 般 是 10 分 钟 ， 而 DNS 高 速 缓存 记录 生存 
期 是 几 天 。 解 释 为 什么 会 存在 这 种 差别 。DNS 高 速 缓存 记录 的 生存 期 太 长 会 产生 什么 不 希望 的 后 果 ”? 
IPv6 通过 允许 硬件 地 址 作为 IPv6 地 址 的 一 部 分 来 简化 ARP。 这 如 何 便 DNS 的 工作 复杂 化 ?这 将 起 
单 影 啊 你 找到 本 地 DNS 服务 器 。 

DNS 服务 器 也 人 允许 反 向 查询 。 给 出 一 个 下地 址 128.112.169.4， 它 被 着 转 换 成 一 个 文本 串 
4. 169. 112. 128. in _ addr. arpa， 并 且 使 用 DNS 的 PTR 记录 查找 (PTR 的 域 层 次 结构 类 似 于 地 址 的 


2x 


26. 


2T. 


28. 


域 层次 结构 )。 假 设 你 想 要 根据 主机 名 鉴别 分 组 的 发 送 方 ， 并 确信 源 IP 地 址 是 真 的。 解释 下 列 情况 
下 的 不 安全 性 : 将 源 IP 地 址 转换 到 上 述 主机 名 ,然后 将 名 字 与 可 信任 主机 的 给 定 列表 进行 对 比 。 
(提示 : 你 信任 谁 的 DNS 服务 器 ?) | | 

一 个 域名 (如 cs. princeton. edu) 和 一 个 IP FMS 〈 如 192. 12. 69. 0) 之 间 有 什么 关系 ? 必须 用 相同 
的 名 字 服 务 器 识别 一 个 子 网 中 的 所 有 主机 吗 ? 像 上 一 道 习题 中 的 反 向 查询 情况 如 何 ? 

假设 一 台 主 机 选择 一 台 不 在 它 的 组 织 内 的 名 字 服 务 器 做 地 址 解析 。 对 在 任何 DNS 高 速 缓存 中 都 找 不 
到 的 查询 ， 与 用 本 地 名 字 服 务 器 相 比 ， 这 样 做 何 时 不 增加 总 通信 量 ? 这 样 做 何 时 会 得 到 一 个 较 高 的 
DNS 高 速 缓存 命中 率 和 较 少 的 总 通信 量 ? 

图 9-17 显示 了 名 字 服 务 器 的 分 层 结构 。 如 果 一 个 名 字 服 务 器 服务 于 多 个 区 域 ， 怎 样 表示 这 种 分 层 结 
W? 在 这 种 设置 下 ， 如 何 将 名 字 服 务 器 的 分 层 结构 联系 到 区 域 的 分 层 结构 ? 怎样 处 理 每 个 区 域 可 以 
有 多 个 名 字 服 务 器 的 情况 ? 

使 用 whois 工具 /服务 找 出 谁 负责 你 的 站 点 ， 至 少 是 在 InterNIC 涉及 的 范围 。 通 过 DNS 名 字 和 通过 
IP 网 络 号 查询 你 的 站 点 ， 对 于 后 者 可 能 不 得 不 尝试 另 一 个 whois 服务 器 (如 whois-h whois. 


arin. net... ) 。 也 试 一 试 princeton. edu 和 cisco. com, 
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许多 较 小 的 机 构 让 第 三 方 维护 它们 的 Web 站 点 。 怎 样 使 用 whois 发 现 是 否 有 这 样 的 情况 ?如 果 有 ， 

怎样 使 用 whois 发 现 第 三 方 的 身份 ? 

现存 DNS. com 分 层 结构 的 特性 之 一 是 它 非 常 “宽阔 ”。 

(a) 提出 一 个 比 .com 分 层 结构 更 加 分 层 化 的 重组 方案 ， 你 能 预料 到 这 一 提议 会 遇 到 什么 反对 意 
见 吗 ? 

(b) 当 大 部 分 DNS 的 域名 含有 4 层 或 4 层 以 上 时 ， 与 现 有 的 两 层 域名 相 比 结果 怎样 ? 

假设 是 另外 一 种 情况 ,我 们 抛弃 所 有 DNS 分 层 结构 ， 并 且 简 单 地 将 所 有 . com 项 移 至 根 名 字 服 务 器 : 

www. cisco. com 可 能 变 成 www. cisco, 或 可 能 就 是 cisco。 从 总 体 上 讲 ， 这 将 如 何 影 响 到 根 名 字 服 务 

器 的 通信 和 量 ? 对 一 种 把 cisco 这 样 的 名 字 转 换 成 Web 服务 器 地 址 的 场景 ， 它 是 怎样 影响 通信 量 的 ? 

在 改变 IP 地址 (如 Web 服务 器 的 主机 名 的 IP 地址 ) 时 ， 涉 及 DNS 高 速 缓存 方面 的 问题 是 什么 ? 怎 

样 使 这 些 问题 的 影响 最 小 ? 

采用 一 个 适当 的 DNS 查询 工具 (如 dig) 并 且 茶 止 递归 查询 符 性 (如 用 十 norecursive)， 这 样 当 你 的 

工具 向 一 个 DNS 服务 器 发 送 一 个 询问 ， 并 且 服 务 器 不 能 根据 自己 的 记录 完全 回答 请 求 时 ， 服 务 器 回 

送 在 查询 序列 中 的 下 一 台 DNS 服务 器 ， 而 不 是 自动 转发 查询 到 下 一 台 服 务 器 。 然 后 实现 如 图 9-18 所 

示 的 手工 方式 名 字 查 找 ， 用 主机 名 www. cs. princeton. edu 尝试 一 下 。 列 出 所 接触 的 每 一 台中 间 名 字 

服务 器 。 你 可 能 也 需要 指明 查询 是 针对 NS 记录 而 不 是 一 般 的 A 记录 。 

找 出 是 否 有 一 个 可 用 的 SNMP 节点 来 回答 你 发 送 的 查询 。 如 果 找 到 了 ， 找 一 些 SNMP 工具 (如 ucd- 

snmp 工具 集 ) 并 且 尝 试 做 下 面 的 事情 : 

(a) 使 用 类 似 


snmpwalk nodename public system 


的 操作 获取 整个 system 组 。 也 尝试 在 上 面 的 操作 中 用 1 来 代替 system, 
Cb) 使 用 多 个 SNMP GET- NEXT 操作 (如 使 用 snmpgetnext 或 等 价 的 操作 ) 手工 遍历 system 组 ， 
每 次 取出 一 条 记录 。 
使 用 前 一 道 习题 中 的 SNMP 设备 和 工具 获取 tcp 组 (组 编号 是 6) 或 某 个 其 他 组 。 然 后 执行 某 种 操作 
使 一 些 组 的 计数 器 有 所 改变 ， 再 重新 获取 这 些 组 以 显示 其 变化 。 尝 试用 这 样 一 种 方法 做 这 件 事 ， 确 
保 是 你 的 行动 引起 记录 的 改变 。 
SNMP 提供 的 什么 信息 对 计划 发 起 第 5 章 习 题 17 的 IP 欺骗 攻击 的 人 可 能 是 有 用 的 ? 还 有 什么 其 他 
SNMP 信息 被 认为 是 敏感 的 。 
如 何 设 计 只 使 用 HTTP 302 重 定向 或 只 使 用 DNS 的 CDN 重 定 向 机 制 ? 这 种 方法 有 什么 限制 ? 将 两 
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种 机 制 结 合 起 来 可 行 吗 ? 
如 霖 一 个 基于 DNS 的 重 定向 机 制 想 根 据 当 前 负载 信息 选择 一 台 合适 的 服务 器 ,那么 它 会 遇 到 什么 
问题 ? | 


想象 一 种 情况 ， 有 多 个 CDN 希望 互相 成 为 对 等 方 〈 类 似 于 自治 系统 在 IP 层 成 为 对 等 方 )， 以 便 将 内 


容 传送 给 大 量 的 终端 用 户 。 例 如 ，CDN A 可 能 代表 一 个 内 容 提供 商 集合 来 提供 内 容 ， 而 CDN B 可 能 


代表 另 一 个 内 容 提供 商 集合 ，A 和 B 都 有 一 个 物理 覆盖 区 使 得 它们 能 够 将 内 容 传 送 给 不 同 的 终端 用 

户 集合 。 概 述 CDN A 和 B 如 何 结合 使 用 DNS 重 定 向 和 HTTP 302 重 定向 将 来 自 CDN A 的 内 容 提 供 

商 的 内 容 发 送 给 CDN B 的 终端 用 户 (或 反 过 来 )。 

想象 一 个 CDN 被 配置 成 缓存 分 层 结构 ， 终 端 用 户 从 边界 缓存 中 访问 内 容 ， 边 界 缓存 则 在 缓存 失效 时 

从 父 缓存 获取 内 容 ， 依 次 向 上 直到 根 缓存 ， 根 缓存 最 终 从 原始 服务 器 获取 内 容 。 什 么 指标 会 引起 如 

下 配置 决策 ， | 

(a) 向 一 个 特定 的 缓存 加 入 更 大 的 存储 量 。 

(b) 向 缓存 分 层 结构 加 入 另 一 层 。 

多 播 覆 盖 有 效 地 将 流 式 内 容 从 单个 源 推送 到 多 个 目的 地 ， 在 中 间 节 点 不 缓存 流 内容 。CDN 有 效 地 从 

一 个 缓存 分 层 结构 中 拉 取 内 容 (包括 视频 )， 并 在 中 间 节 点 缓存 内 容 。 举 例 说 明 如 何 将 二 者 看 作 彼 此 

的 对 偶 。 解释 为 什么 可 以 认为 CDN 与 异步 多 播 等 价 。( 提 示 : 考虑 TiVo.) 

考虑 下 面 的 简化 BitTorrent 环境 。 在 回答 本 问题 期 间 ， 有 一 个 有 2* 个 对 等 方 的 群 ， 并 且 没 有 对 等 方 

加 入 或 离开 该 群 。 对 等 方 需要 1 个 时 间 单 元 来 上 传 或 下 载 一 个 片 ， 并 且 在 一 个 时 间 内 只 能 做 一 件 事 。 

开始 时 ， 有 一 个 对 等 方 有 完整 的 文件 ， 而 其 他 对 等 方 什么 也 没有 。 

(a) 如果 该 群 的 目标 文件 只 由 1 个 片 组 成 ， 那 么 所 有 对 等 方 得 到 该 文件 至 少 需 要 多 长 时 间 ? 忽略 除 
上 传 /下 载 以 外 的 其 他 时 间 。 

(b) 设 z 是 你 对 上 一 个 问题 的 答案 。 如 果 群 的 目标 文件 由 两 个 片 组 成 ， 那么 所 有 对 等 方 在 不 到 2z 个 
时 间 单 元 内 得 到 该 文件 是 可 能 的 吗 ? 为 什么 ? | 
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当 最 后 一 个 数据 比特 到 达 目 的 地 时 ， 我 们 认为 传输 完成 。 

(a) 1.5MB=12582 912 比特 ， 两 个 初始 RTT(160ms) +12 582 912/10 000 000bps( 传 输 ) 十 RTTV/2( 传 
HE) a1. 458s, 

Cb) 请 求 的 分 组 数 王 1. 5MB/1KB=1 536。 对 于 上 面 的 值 ， 我 们 加 上 1535 RTT 的 时 间 (分 组 1 到 
达 和 分 组 1 536 到 达 之 间 的 RTT 个 数 )， 总 共 是 1. 458 十 122. 8=124. 258s。 

Cc) 1 536 个 分 组 除 以 20 是 76.8， 这 将 占用 76.5 S RTT (第 1 组 到 达 用 半 个 RTT， 加 上 第 1 组 和 第 
77 组 之 间 的 76 个 RTT)， 再 加 上 初始 的 两 个 RTT， 一 共 是 6. 28s。 

O 我 们 在 握手 后 立即 发 送 一 个 分 组 ， 握 手 后 的 一 个 RTT 后 我 们 发 了 两 个 分 组 ,nn 个 RTT 之 后 ， 我 
们 已 经 发 了 1 十 2 十 4 十 … 十 2* 二 2271-1 个 分 组 。 在 n=10 时 ， 我 们 已 经 发 了 所 有 | 1536 4) 4H 
最 后 一 组 在 0.5 个 RITT 后 到 达 。 总 的 时 间 是 24+10.5RTT, BH 1s。 


6. 传播 延迟 是 50X103m/ (2X108m/s) = 250s, 800 比特 /250ys = 3.2 Mbps。 对 于 512 字 节 的 分 组 ， 


文 个 值 提 高 为 16. 4Mbps。 


14. (a) 链 路 上 传播 延迟 是 (55X10?9) / (8X108) =184s, AL RTT 是 368s。 
Cb) 链 路 的 延迟 带宽 积 是 184X128X10;== 2.81 MB, 
(c) 拍摄 完 一 张 图 片 后 必须 马上 在 链 路 上 发 送 ， 并 且 在 任务 控制 中 心 能 解释 它 之 前 要 传播 完 。5MB 
数据 的 传输 延迟 是 41 943 040 比特 /128 X10 二 328s， 因 此 所 需 的 总 时 间 是 传输 延迟 十 传播 延 
WR =328+184=512s, | 
17. (a) 对 每 一 条 链 路 ， 要 花 1Gbps/5kb=5ys 时 间 在 链 路 上 发 送 分 组 ， 然 后 最 后 1 比特 穿 过 链 路 还 需要 
l0us。 因 此 对 只 有 一 个 交换 机 的 LAN， 交 换 机 仅 在 收 到 整个 分 组 后 才 开始 转发 ， 总 的 传送 延迟 是 两 
个 传输 延迟 十 两 个 传播 延迟 一 30ns。 
D 对 于 3 台 交 换 机 及 4 条 链 路 ， 总 延迟 是 4 个 传输 延迟 十 4 个 传播 延迟 = 60ps. 
Cc) 对 于 “直通 ”转发 ， 交 换 机 在 转发 之 前 仅 需要 解码 前 128 位 数据 ， 这 需要 128ns， 这 个 延迟 替换 了 前 
一 答案 中 的 传输 延迟 ， 所 以 总 延迟 为 ,1 个 传输 延迟 十 3 个 直通 解码 延迟 十 4 个 传播 延迟 一 45. 384ps。 
27. (a) 1 920X1 080 24X30=1 492 992 0001. 5Gbps。 
(b) 8X8 000=64kbps, 
Ce) 260 X50=13kbps 
(d) 24X88 200=216 80022. 1Mbps. 
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给 定 比 特 序列 的 4B/5B 编码 如 下 : 
11011 11100 10110 11011 10111 11100 11100 11101 


11011 11100 10110 11011 10111 11100 11100 11101 


比 持 1 10111 A 1101 110111 11100111001110011101 


人 


| 
| 


JH RE | | 2 


7. 用 标记 “人 ”填充 的 0 被 移 去 的 位 置 ， 当 检测 到 连续 7 个 1 时 表示 出 现 一 个 错误 (err)， 在 该 比特 序 
列 的 末端 检测 到 帧 结束 (eof)。 
01101011111 A 10100111111 ler 0110 01111110。u 
19. Ca) 将 消息 1011 0010 0100 1011 附加 8 个 0， 然 后 用 1 0000 0111 (28 +22@+2z'+1) ER. AME 
1001 0011。 我 们 将 原始 消息 附加 上 这 个 余数 一 起 发 送 ， 结 果 为 : 
1011 0010 0100 0011 1001 0011 
Cb) 将 上 述 消 息 的 第 一 位 反 转 得 到 0011 0010 0100 1011 1001 0011， 用 1 0000 0111 (z8 +x? +x! +1) 
去 除 ， 得 到 余数 1011 0110。 
25. 链 路 的 单程 时 延 是 100ms， 带 宽 X 往 返 延迟 大 约 是 125 分 组 /sX 0. 2s 或 者 25 个 分 组 。SWS 应 该 这 
AR. 
Ca) WR RWS 二 1， 必 须 的 序号 空间 是 26, ， 因 此 需要 5 比特 。 
(b) 如 果 RWS=SWS, FS 2 HAH SWS 的 两 倍 ， 即 达到 50， 因 此 需要 6 比特 。 
32. 图 2 给 出 第 一 个 例子 的 时 间 线 ， 第 二 个 例子 减少 了 大 约 1 个 RTT 的 交易 时 间 。 






2RTT 


Timeout 


i i 
i i 
i i 
i i 
i E i 
peel nera; : 
i : 
i i 
i i 








2. 表 1 是 累积 的 ，VCI 表 的 每 一 个 部 分 既 包 含 当前 记录 也 包含 以 前 的 所 有 记录 。 注 意 ， 在 (d) 部 分 我 
们 假设 交换 机 4 端口 0 的 VCIo 不 可 重用 (EE (a) 部 分 中 用 于 连接 H)。 这 与 通常 情况 下 的 双向 
VCI 更 加 一 致 。 
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a | 
=| 
S 
a 
se] | 
Oo] | 
3 
> 
< 
c 
= 
Fe 


端口 VCI 
| | 
| | | 
| a 
| | | 
| 
ee ee ee ee a 
a EE EC 
| | | :| : | 


14. FEAET LAN 和 它们 的 指派 网 桥 之 间 的 映射 关系 ， 


16. 


Bla 


Te 


47. 


B1 dead 

B2 A, B,D 

B3 E, F, G, H 

B4 I 

B5 idle 

B6 J 

B7 C 

所 有 的 网 桥 能 看 到 从 D 到 C 的 分 组 。 只 有 B3, B2 和 B4 看 到 从 C 到 DD 的 分 组 。 只 有 BI, B2, BF 
到 从 A 到 C 的 分 组 。 

Bl A- 接 口 : A B2- 接 口 : D (不 是 C) 


B2 Bil- 接口 : A B3- 接 口 : C B4- 接 口 : D 
B3 C- 接 口 : C B2- 接 口 : A, D 
Bt D#0: D B2- 接 口 ; C (不 是 A) 


由 于 I/O 总 线 速度 低 于 内 存 带宽 ， 所 以 它 是 瓶颈 。 因 为 每 个 分 组 穿 过 1/O 总线 两 次 ， 所 以 能 提供 的 
ASCs Ti Fe 1 000/2Mbps。 因 此 接口 数目 是 (500/100)=5, 

根据 定义 ， 路 径 MTU 为 576 字 节 ， 最 大 IP RAE 576—20=556 字 节 。 我 们 需要 传输 的 IP 载荷 为 
1 024 十 20 一 1044 字 节 ， 可 将 它 分 为 两 个 分 片 ， 第 一 个 分 片 的 大 小 是 552 字 节 (因为 分 片 应 该 是 8 F 
方 的 整数 倍 ， 因 此 不 能 是 556。) 第 二 个 分 片 大 小 为 1 044—552=492 字 节 。 如 果 用 路 径 MTU， 一 共 
需要 两 个 分 片 。 上 一 题 中 我 们 需要 三 个 分 片 。 | 
Ca) 见 表 2. 
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(b) 见 表 3. 
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Cc) 见 表 4。 
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56. 应 用 每 一 个 子 网 掩 码 ， 如 果 相 应 的 子 网 号 与 对 应 列 匹 配 ， 那 么 在 下 一 跳 中 使 用 该 表 项 。 
Ca) 应 用 子 网 掩 码 255. 255. 254. 0， 我 们 得 到 128. 96. 170. 0， 用 接口 0 作为 下 一 跳 。 
(b) 应 用 子 网 掩 码 255.255.254.0, 我 们 得 到 128. 96.166.0 (下 一 跳 是 RZD. MASTS MKB 
255. 255. 252.0, 我 们 得 到 128,96, 164.0 CFE RB). (A FE 255. 255. 254.0 是 一 个 更 长 的 前 
级 ， 所 以 使 用 R2 作为 下 一 跳 。 
O RATAS DLAC, BERR UBS ae R4。 
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Cd) 应 用 子 网 掩 码 255. 255. 254. 0， 我 们 得 到 128.96. 168.0, ARO 1 作为 下 一 跳 。 
Ce) Ji FA PEAS 255. 255. 252. 0， 我 们 得 到 128. 96. 164.0， 用 R3 作为 下 一 跳 。 
63， 见 表 5。 
表 5 


y 


ESSN a —_ 
Gi HO 6D 
C4 DG TB 
i G5, BET 5 
5 
6 


(A, 0, Ta) (B, l, B) (D, 4, B) (C, 53 B) (E, 6, B) 


BADE GB. Oe Wa Oe -G@ys 


fo we 


a 








L 





10. 通知 窗口 应 该 足够 大 以 保证 管道 满载 ， 延 迟 (RTT) Xx 带宽 是 140msX1Gbps=10Mb=17.5MB, xf 
于 AdvertisedWindow 字段 ， 需 要 25 比特 (225 = 33 554 432) 。 序 号 空间 在 最 大 的 段 生 存 期 内 必须 不 
回 绕 。 在 60s 内 ， 能 发 送 7.5GB。33 比特 允许 使 用 一 个 8. 6GB 的 序号 空间 ， 并 且 在 60s 内 不 回 绕 。 

13. Ca) 232B / (5GB) = 859ms 。 i 
Cb) 在 859rns 中 1 000 次 滴答 就 是 每 8591s 一 次 ， 意 味 着 在 3. 7Ms 或 大 约 43 天 出 现 回 绕 。 

27. 初始 Deviation=50, JZ 20 次 TimeOut 才 会 低 于 300.0, WH 6, 

表 6 


0 ll m0 | mo | = | 一 

| 00 | 7 | 55 | m0 | 7 
2 | 00 | tis? | os | 9 | 5 
| 00 | ane | 0 | Ss | 0 
oo oo | 84 | 6 | 7 | a 
5 oo | Mt | 0 | G6 | oa 
E 00 | 04 | 6 | 5 | dao5 
7 | 00 | 6 | 0 | de | T 
e [wo | 20 | 6 | 4 | 4044 
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CA 
ww 


| 


295. 


Ioil lejejisn ajio NINIS] oj © 





(a) 首先 我 们 计算 完成 时 间 Fi;; 由 于 对 所 有 分 组 我 们 可 以 令 AS=0, Hr AAE A ad H ot EY BP BR E, 
F; 就 变 成 每 个 流 的 累积 大 小 ， 即 FSF HP W227 所 示 ， 现 在 我 们 以 Fi 的 升序 来 发 送 : 分 组 3， 
分 组 1， 分 组 6， 分 组 4， 分 组 7， 分 组 2， 分 组 5， 分 组 8。 

(b) 给 定 流 1 的 权 值 为 2， 我们 将 每 个 Fi 除 以 2， 即 Fi 二 -1 十 Pi;/2， 给 定 流 2 的 权 值 4， 我 们 对 每 
个 Fi BU 4, BI Fi=Fi-1+Pi/4. Sem 3 的 权 值 3， 我 们 对 每 个 记 除 以 3， 即 Fi; 二 Fi-1 十 Pi/3。 
再 次 使 用 没有 等 待 时 间 这 个 事实 。 如 表 8 所 示 ， 以 加 权 F: 的 升序 发 送 分 组 : 分 组 3， 分 组 4， 分 组 
6， 分 组 1， 分 组 5， 分 组 7， 分 组 8， 分 组 2. 


žit 


= 
监 | 
+ | 
> | 
| it 
|N 
s | 


2 200 400 2 200 200 
7 150 360 7 150 120 


(a) 对 一 个 给 定 流 上 第 i 个 到 达 的 分 组 ， 通 过 公式 F; = max{Ai,Fi 1i)} 十 1 计算 估计 的 完成 时 间 Fi， 
其 中 用 于 测量 到 达 时 间 A 的 时 钟 以 活动 队列 的 数目 为 因子 缓慢 增加 。A; 的 时 钟 是 全 局 的 ， 按 上 述 方 
法 计算 的 F; 序列 对 每 个 流 来 说 是 局 部 的 。 | 

表 9 列 按时 钟 顺序 列 出 所 有 事件 ， 我 们 用 分 组 所 属 的 流 和 到 达 时 间 标 识 分 组 ， 因 此 分 组 A4 是 在 
时 钟 为 4 时 列 出 到 达 的 流 A 的 分 组 ， 即 第 三 个 分 组 。 最 后 3 列 是 后 续 时 间 间 隔 中 每 个 流 的 队列 ， 包 
括 当 前 正在 发 送 的 分 组 。 活 动 队 列 的 数目 决定 了 A 在 下 一 行 上 的 增加 量 。 如 果 多 个 分 组 的 Fi 值 相 
同 ， 那 么 它们 出 现在 同一 行 上 ; 4 FSF +1 (相对 于 F:=Ait+)D f, F: 值 用 斜体 表示 。 
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(Bz) 
Ext Aah A, 发 送 人 队列 B 队列 C 队列 
3 1. 833 A3 A3 | Cu? 


Q 
x 


a f~ C 

rE 

È 

B4 A5, A6 C4, C6 
4. 333 A5 TN 


C4 A6, A8 B7, B8 C4, C6, C7 


Od |] Ot 
w 
D 
Od 
Oy 

ii 

Ori Ot 

on | 心 

oTo 


| | A6 A6, A8, A9 | B8, B9 C6, C7 
C12 B8 A8, A9, All | B8, B9 C7, Cl2 








10 4, 333 
1 woo 
RE 5. 333 B13 7. 333 C7 GI? 
15 B15 8. 333 B9, B13, BIS | C12 
BE a An 
A 
Cb) 对 于 流 B 的 加 权 公 平 队列 ， 


F;=max({A; eS ere ao 5 
OME AMC, Fi 同 前 ， 可 得 表 10. 


x 10 
tao eer ao «| BI. | Cl 
a 一 
Pe feo N T N 
[fe pee 
oe ee PR a 
ae ae a LE A 
lw al ooo 
| A8, A9, All ”| B | c6, C7, C12 


B7 A6, A&, Ag B7, B8, B9 C6, C7 


30. 


48. 
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(a) 我 们 有 


TempP= MaxP X (AvgLen— MinThreshold)/(MaxThreshold— MinThreshold) 
AvgLen 是 MinThreshold 和 MaxThreshold 的 平均 值 ， 这 意味 着 比例 为 1/2， 所 以 TempP = MaxP/2= p/ 


2。 现 在 我 们 有 
Poount = TempP/(1— countX TempP) =1/(x— count) 
此 处 ， L=2/p, 因此 
1— Poount = C£— (count1))/(z— count) 








求 乘 积 
(1 一 Pi ) X-X C1—P,) 
得 出 
ea eR) ae ee) 
O ee coca a aa 
其 中 ， x=2/p. . 
(b) 从 前 一 问题 的 结果 可 得 
Se 
因此 
a 9/4 
相应 地 有 
一 2 Ua) 


在 每 时 每 刻 ， 桶 的 容量 必须 非 仙 ， 对 给 定 的 桶 的 深度 D 和 令 牌 速率 >， 我 们 能 计算 t 秒 时 的 桶 容量 


v(t), FFA GR vd) 非 负 。 
000) =D—-5+r=D—-6-n 20 
v1) =D—5—-5+ 2r=D—-26-rn) 20 
v2) = D5 5 [4-387] D1 — 37) 20 
v(3) =D—-5—-5—-14+4r= D—(11—-4r) 20 
v4) =D) =) = 16 br] DS U7 bor) 20 
v(5)=D—5—5—1—6—1+6r=D—6(3—r)=0 
我 们 定义 函数 AO, fz Gs es fem WF: 
TIE Eer 
faln) =26b-nN=2finehimM Axrss) 
BROAN sre). Geb 
faM=N-4r<ifsQ) (7 之 1) 
fs (r) =17—5r 
fe =63-N<Sfs(n Cel) 
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首先 对 725, ANO 的 所 有 i ， 这 意味 着 令 牌 速率 比 每 秒 5 分 组 要 快 ， EM ERREA CB 
D>0). X I1Kr<5, APA BBD O 和 上方 (， 我 们 仅 需要 考虑 它们 就 可 以 了 ， 你 很 容 
Js BM, for) 一 fs (7) 二 3r 一 7。 因 此 桶 的 深度 DD 必须 满足 下 列 公 式 
fs(r)=17—5r r=1,2 
D>< fel) =2(5—r) r=3,4,5 
0 Fo 
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2. 每 个 串 的 前 面 是 它 的 长 度 计数 ， 工 资 数组 的 前 面 是 元 素 个 数 计数 。 最 终 被 发 送 的 整数 和 ASCII 字符 序 


列 是 : 


4MARY43777JANUARY72002290000 150000 1 


8. 
x. 11 


10. 15 be 00000000 00000000 00000000 00001111 
15 1e 00001111 00000000 00000000 00000000 


29496729 be 00000001 11000010 00010101 10011001 
29496729 le 10011001 00010101 11000010 00000001 


98993458 be 00000011 10000100 00101011 00110010 
58993458 le 00110010 00101011 10000100 00000011 





3DES: 三 重 DES， 使 用 了 三 个 密 钥 的 DES 版 本 ， 
有 效 增加 了 密 钥 大 小 和 加 密 的 健壮 性 。 

3G: 第 三 代 移 动 无 线 网 ， 是 一 种 基于 码 分 多 路 复 
H (CDMA) 的 蜂 窒 无 线 技术 。 

4B/5B: 在 光纤 分 布 数据 接口 (FDDI)〉 中 使 用 的 
一 种 比特 编码 方案 ， 其 中 每 4 比特 数据 作为 一 
个 5 比特 序列 传输 。 

4G: 第 四 代 无 线 技 术 ， 正 在 逐步 普及 的 一 套用 于 
支持 比 3G 更 高 的 数据 传输 率 的 标准 。 

802.3; IEEE 以 太 网 标准 。 

802. 5; IEEE 令 牌 环 网 标准 。 

802.11: IEEE 无 线 网 络 标准 。 

802. 17: IEEE 弹性 分 组 环 标 准 。 

822: RFC 822， 定 义 因 特 网 电子 邮件 格式 。 见 
SMTP, | 

AAL (ATM Adaptation Layer, ATM 适 配 层 )， 是 一 
个 配置 在 ATM 之 上 的 协议 层 。 为 数据 通信 征 
义 了 两 个 AAL: AAL3/4 和 AAL5。 每 个 协议 
层 提 供 一 种 机 制 ， 在 发 送 方 将 大 分 组 分 段 为 信 
元 ， 而 在 接收 方 将 信 元 重组 为 大 分 组 。 

ABR: 中 可 用 的 比特 率 (Available Bit Rate), È 
是 一 种 专门 为 ATM 网 络 开 发 的 基于 速率 的 拥 
塞 控 制 方案 。ABR 可 以 根据 来 自 网 络 中 的 交换 
机 的 反馈 ， 允许 数据 源 增加 或 减少 所 分 配 到 的 
速率 。 对 比 CBR, UBR 和 VBR。@ 区 域 边界 路 
由 器 (Area Border Router) ， 是 处 在 一 个 链 路 状 
AS PDP E i FEE BY BS HF o 

ACK: acknowledgment (确认 ) 的 缩写 。 由 接收 数 
据 的 接收 方 发 送 一 个 确认 ， 向 发 送 方 表明 数据 
传输 成 功 。 | 

additive increase/multiplicative decrease (加 性 增 / 
乘 性 减 ): TCP 使 用 的 拥塞 窗口 策略 。TCP 以 
线性 速率 打开 拥塞 窗口 ， 但 是 当 由 于 拥塞 导致 
数据 丢失 时 就 将 窗口 减 小 一 半 。 事 实 表明 加 性 
增 / 乘 性 减 是 保持 拥塞 控制 机 制 稳定 的 必要 
条 件 。 

AES (Advanced Encryption Standard， 高 级 加 密 标 
准 ): 用 来 取代 DES 的 密码 。 





AF (Assured Forwarding, WREE): 它 是 为 区 分 
服务 提出 的 每 跳 行为 之 一 。 

ALF (Application Level Framing, MARIE): È 
是 一 种 协议 设计 原则 ， 表 明 与 通用 的 传输 协议 
相 比 ， 应 用 程序 能 更 好 地 理解 它们 的 通信 需求 。 

AMPS (Advanced Mobile Phone System， 和 先进 的 移 
动 电 话 系统 ): 它 是 一 种 模拟 蜂 帘 电话 系统 ， 现 
在 正 被 数字 系统 〈 称 为 个 人 通信 服务 ，PCS) 所 
取代 。 

ANSI (American National Standards lnstitute， 美 国 
国家 标准 协会 ): 它 是 非 官方 的 标准 化 组 织 ， 参 
与 ISO 标准 化 过 程 ， 负 责 SONET。 

API (Application Programming Interface， 应 用 程序 
编程 接口 ): 它 是 应 用 程序 用 来 访问 网 络 子 系统 
(通常 是 传输 协议 ) 的 接口 ,通常 特定 于 操作 系 
统 。Berkeley Unix 的 套 接 字 API 是 一 个 广泛 使 
用 的 例子 。 

area (KE): 在 链 路 状态 路 由 选择 的 上 下 文中 ， 
它 是 彼此 共享 全 部 路 由 信息 的 邻接 路 由 器 集合 。 
为 提高 可 扩展 性 ,一 个 路 由 选择 域 被 划分 成 
区 域 。 

ARP (Address Resolution Protocol, 地址 解析 协 
WM): 因特网 体系 结构 的 协议 ， 用 于 将 高 层 协议 
地 址 翻译 成 物理 硬件 地 址 ， 一 般 用 于 在 因特网 
上 将 TP 地址 映射 为 以 太 网 地 址 。 

ARPA (Advanced Research Projects Agency， 高 级 
研究 计划 署 ) ， 美国 国防 部 的 研究 与 开发 组 织 
一 ， 负 责 资助 ARPANET 和 可 促使 TCP/IP 
特 网 发 展 的 研究 项 目 。 也 称 为 DARPA, DD 代表 
国防 部 (Defense), 

ARPANET: 一 个 由 ARPA 资助 的 试验 性 广 域 分 组 
交换 网 络 ， 开 始 于 20 世纪 60 年 代 末 ， 成 为 发 
展 中 的 因特网 的 主干 网 。 

ARQ (Automatic Repeat Request， 自 动 请 求 重 发 ): 
它 是 在 不 可 靠 链 路 上 可 靠 地 发 送 分 组 的 通用 策 
略 。 如 果 发 送 方 在 一 段 特定 的 时 间 后 没有 收 到 
分 组 的 ACEKE， 它 就 假定 此 分 组 没有 到 达 目 的 地 
《或 者 到 达 了 但 是 有 比特 错误 ) ， 并 重 发 该 分 组 。 
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停止 -等 待 与 滑动 窗口 是 ARQ 协议 的 两 个 例子 。 
对 比 FEC, 

ASN. 1 (Abstract Syntax Notation One， 抽 象 语法 标 
记 1): 它 与 基本 编码 规则 (BER) 一 起 作为 
OSI 体系 结构 的 一 部 分 ， 是 由 ISO 制定 的 格式 
化 表示 的 标准 。 

ATM (Asynchronous Transfer Mode， 异步 传 输 模 
R): 它 是 一 种 面向 连接 的 网 络 技术 ， 使 用 小 的 
定 长 分 组 〈 称 为 信 元 ) 传输 数据 。 

ATM Forum (ATM 论坛 ): 一 个 建立 ATM 标准 的 
重要 组 织 。 

authentication (E): 一 种 安全 协议 ， 存 疑 的 双 
方 通过 它 相 互 证 实 它们 符合 其 所 声称 的 身份 。 

autonomous system (AS, 自治 系统 ): 一 组 网 络 和 
路 由 器 ， 它 们 属于 同一 机 构 ， 使 用 相同 的 域内 
路 由 协议 。 

bandwidth (带宽 ): 一 种 对 链 路 或 连接 的 容量 的 度 
量 ,， 通常 以 比特 / 秒 为 单位 。 

Bellman-Ford: 一 种 距离 问 量 路 由 选择 算法 的 名 
称 ， 以 两 位 发 明 者 的 名 字 命 名 。 

BER (Basic Encoding Rule， 基 本 编码 规则 ):， 对 
ASN. 1 中 定义 的 数据 类 型 进行 编码 的 规则 。 

best-effort delivery (尽力 而 为 的 传送 )， 当前 因 特 
网 体系 结构 中 使 用 的 服务 模型 。 消 息 传输 是 尽 
力 而 为 的 ， 不 提供 保证 。 

BGP (Border Gateway Protocol， 边 界 网 关 协 议 ): 
一 种 域 间 路 由 选择 协议 ， 目 治 系统 可 通过 它 交 
换 可 达 性 信息 。 最 新 版 本 是 BGP-4。 

BISYNC (Binary Synchronous Communication, Z 
制 同 步 通信 ): 由 IBM 在 20 世纪 60 年 代 末 开发 
的 面 回 字 节 的 链 路 层 协议 。 

bit stuffing (比特 填充 ) : 一 种 在 比特 级 区 分 控制 序 
列 和 数据 的 技术 ,在 高 级 数据 链 路 控制 
CHDLC) 协议 中 使 用 。 

block (BE): 操作 系统 术语 ， 用 来 描述 一 个 进程 
因 等 竺 某 一 事件 而 暂停 执行 的 状态 ， 如 等 待 信 
号 量 (semaphore) 状态 的 改变 。 

bluetooth (EF): 用 于 短 距 离 连 接 计 算 机 、 移 动 
电话 、 外 围 设备 的 无 线 标准 。 

bridge (MI): 一 种 将 链 路 层 的 帧 从 一 个 物理 网 络 
转发 到 另 一 个 网 络 的 设备 ， 有 时 也 称 局 域 网 交换 
DL. XF PAR (repeater) 和 路 由 器 《router)。 

broadcast (广播 ) : 一 种 将 一 个 分 组 传 到 一 个 特定 


网 络 或 互联 网 上 的 每 一 个 主机 的 方法 ,可 以 用 


硬件 实现 (如 以 太 网 )， 也 可 以 用 软件 实现 (如 
IP R 

CA (Certification Authority, TAGE SLM, tE RA IE 
书 管理 机 构 (Certification Authority)) ， 一 个 负 
责 签 署 安全 证 书 的 实体 ， 保 证 包含 在 证 书 中 的 
公 钥 属于 证 书 中 命名 的 实体 。 

CBC (Cipher Block Chaining， 密 码 分 组 链 ) ， 一 种 
加 密 模 式 ， 在 加 密 前 ， 每 个 明文 分 组 与 前 一 个 
密 文 分 组 进行 异 或 。 

CBR (Constant Bit Rate， 恒 定 比 特 率 )， 是 ATM 
中 的 一 类 服务 ， 它 们 保证 以 一 种 恒定 的 比特 率 
传输 数据 ， 从 而 模拟 一 条 专用 的 传输 链 路 。 对 
比 ABR、UBR 和 VBR. 

CCITT: 现在 已 不 复 存在 的 国际 电报 电话 咨询 委员 
会 (Consultative Committee of International Tel- 
egraph and Telephone )， 它 是 联合 国 的 国际 电 
信 联 盟 ITU) 的 分 会 。 该 组 织 已 经 被 ITU-T 
取代 。 

CDMA ( 码 分 多 址 ): 用 于 无 线 网 络 的 多 路 复 用 
方法 。 

CDN (内 容 分 发 网 络 ): 分 布 在 因特网 上 的 Web 服 
务 器 代理 的 集合 ， 它 们 代 蔡 服务 句 啊 应 Web 
HTTP 请 求 。 广 泛 分 布 代理 服务 器 的 目的 是 一 
旦 有 某 个 代理 靠近 客户 时 ,使 它 能 更 快 地 啊 应 
请 求 。 

cell (4870): 一 个 53 字 节 的 ATM 分组， 能 够 传 
输 最 多 48 SE AY GE 

certificate (HE): 由 一 个 实体 数字 签名 后 的 文 
档 ， 其 中 包含 男 一 个 实体 的 名 称 和 公 和 钥 。 用 于 
EWAH. ZIL CA, 

channel (信道 ): 本 书 使 用 的 一 个 通用 的 通信 术 
语 ， 用 来 描述 一 个 逻辑 的 进程 到 进程 的 连接 。 

checksum ( 校 验 和 )， 通常 指 对 一 个 分 组 的 所 有 或 
部 分 字 节 的 反 人 码 求 和 ， 由 发 送 方 计算 并 附加 在 
分 组 的 后 面 。 接 收 方 重新 计算 校 验 和 ， 并 将 它 
与 消息 中 携带 的 校 验 和 比较 。 校 验 和 用 于 检查 
分 组 中 的 差错 ， 也 用 于 验证 分 组 被 传送 到 了 下 
确 的 主机 。 术 语 校 验 和 有 时 (不 严密 地 ) 用 于 
通 指 检 错 码 。 

chipping code (F8): 与 数据 流 进行 异 或 (XOR) 
操作 ， 用 于 实现 扩 频 直接 序列 技术 的 随机 比特 
序列 。 

CIDR (Classless Interdomain Routing， 无 类 域 间 路 
由 ) :一 种 聚合 路 由 的 方法 ， 将 一 块 连续 的 C 类 


IP 地 址 看 作 一 个 网 络 。 

circuit switching (电路 交换 ): 一 种 通过 网 络 交 换 
数据 的 通用 策略 。 它 需要 在 数据 源 和 目的 地 之 
间 建 立 一 个 专用 路 径 (电路 )。 对 比分 组 交换 
(packet switching) , 

client ($A): 分 布 式 系统 中 的 服务 请 求 者 。 

cLNP (Connectionless Network Protocol, 无 连接 网 
络 协 议 ): ISO 中 对 应 于 因特网 IP 协议 的 协议 。 

clock recovery (时 钟 恢复 ): 在 串 行 传输 的 数字 信 
号 中 导出 有 效 时 钟 的 过 程 。 

concurrent logical channels (并 发 逻辑 信道 ): 在 单 
条 点 到 点 链 路 上 多 路 复 用 多 个 停止 -等 待 逻 辑 信 
道 。 没 有 强制 的 传递 顺序 。 这 种 机 制 用 在 AR- 
PANET 的 IMP-IMP 协议 中 。 

congestion (W£): 一 种 由 于 过 多 分 组 竞争 有 限 


的 资源 (如 路 由 妖 或 交换 机 上 的 链 路 带宽 和 缓 . 





冲 区 空间 ) 而 导致 的 状态 ， 这 种 状态 可 能 会 使 
路 由 器 (交换机) 被 迫 丢 弃 分 组 。 

congestion control (拥塞 控制 ): 它 是 能 够 缓和 或 
避免 拥塞 出 现 的 任何 网 络 资源 管理 策略 。 拥 塞 
控制 机 制 可 以 在 网 络 中 的 路 由 器 〈 交 换 机 ) 上 
实现 ， 也 可 以 在 网 络 边缘 的 主机 上 实现 ， 或 者 
是 两 者 结合 来 实现 。 

connection (连接 ); 一 般 地 ， 在 使 用 一 个 信道 前 要 
先 建立 它 〈 如 通过 传输 一 些 设置 信息 )。 例 如 ， 
TCP 提供 了 一 种 连接 抽象 ， 文 持 可 靠 有 序 的 字 
节 流 传递 。 面 向 连接 的 网 络 (如 ATM) 常常 被 
称 作 提供 了 一 个 虚 电 路 (virtual circuit) FIR. 

connectionless protocol (无 连接 协议 ): 一 种 不 需 
要 预先 建立 连接 就 能 发 送 数 据 的 协议 。IP 就 是 
这 种 协议 的 一 个 例子 。 





context switch ( 上下文 切换 ) 一 种 操作 系统 挂 起 


一 个 进程 的 执行 并 开始 执行 为 一 个 进程 的 操作 。 

上 下 文 切换 包括 保存 前 一 个 进程 的 状态 〈 如 所 

有 寄存 器 的 内 容 ) 和 装 和 人 后 一 个 进程 的 状态 。 

controlled load ( 受 控 负 载 ): 因特网 综合 服务 体系 
结构 中 的 一 种 服务 类 型 。 | 

CRC (Cyclic Redundancy Check, #8 2s 7c RRK ): 
一 种 检 错 码 ， 由 网 络 硬件 (如 以 太 网 适配器 》 
对 组 成 分 组 的 字 节 计算 得 到 ， 并 将 它 附 加 到 分 
组 上 。 循环 元 余 校 验 提供 比 简 单 校 验 和 更 强大 
的 差错 检测 功能 。 

crossbar switch (纵横 式 交 换 机 ): 一 种 简单 的 交 
换 机 ， 其 中 每 个 输入 都 与 每 个 输出 直接 相连 ， 


| cut-through (直通 快速 转发 ): 


而 输出 端口 负责 解决 争 用 。 

CSMA/CD (Carrier Sense Multiple Access with Col- 
lision Detect， 带 冲突 检测 的 载波 侦 听 多 路 访 
问 ): CSMA/CD 是 网 络 硬件 的 一 种 功能 。“ 载 
波 侦 听 多 路 访问 ”的 意思 是 多 个 站 可 以 侦 听 链 
路 并 检测 链 路 何 时 处 于 使 用 或 空闲 状态 。 “冲突 
检测 ”是 指 如 果 两 个 或 多 个 站 同时 在 链 路 上 传 
送 数据 ， 它 们 将 会 检测 到 信号 间 的 冲突 。 以 太 
网 是 使 用 CSMA/CD 技术 的 最 广为人知 的 例子 。 

交换 或 转发 的 一 种 
方式 ， 在 一 个 分 组 完全 被 交换 节点 接收 之 前 ， 
它 就 被 传送 到 输出 接口 ， 这 样 能 减少 分 组 通过 
节点 的 时 延 。 

datagram (数据 报 ): 因特网 体系 结构 中 的 基本 传 

输 单元 。 数 据 报 中 含有 将 它 传递 给 目的 地 所 需 
的 所 有 信息 ， 与 美国 邮政 系统 的 信件 类 似 。 数 
据 报 网 络 是 无 连接 的 。 

DCE (Distributed Computing Environment， 分 布 式 
计算 环境 ): 文 持 分 布 式 计 算 的 基于 RPC 的 协 
议和 标准 的 集合 ， 由 OSF 定义 。 

DDCMP (Digital Data Communication Message Pro- 
tocol， 数 字数 据 通信 报 文 协 议 ) : 数字 设备 公司 
的 DECnet 中 采用 的 一 种 面向 字 节 的 链 路 层 
协议 。 

DDoS (Distributed Denial of Service， 分 布 式 拒 绝 
服务 ) : 一 种 拒绝 服务 攻击 ， 由 一 组 节点 发 起 攻 
击 。 每 个 进行 攻击 的 节点 上 只 对 目标 机 投放 少量 
负载 ， 但 来 自 所 有 攻击 节点 的 总 负载 量 会 使 被 
Wit HY A ox OLA SE EE i 。 

DECbit， 一 种 拥塞 控制 方案 ， 其 中 路 由 器 通过 将 
被 转发 的 分 组 首部 中 的 一 位 置 为 1， 通 知 端 节 点 
即将 到 来 的 拥塞 。 当 端 节 点 收 到 的 该 位 置 为 1 
的 分 组 达到 一 定 百 分 比 时 ， 端 节点 将 降低 它们 

decryption (解密 ): 加 密 过 程 的 逆 过 程 ， 从 被 加 密 
的 报 文 中 恢复 数据 。 

delay bandwidth product (延迟 带宽 积 ): 网 络 的 
RTT 与 带宽 的 乘积 ， 给 出 网 络 能 传送 多 少数 据 
的 度量 。 

demultiplexing (多 路 分 解 ): 利用 分 组 首部 包含 的 
信息 ， 将 其 导向 一 个 协议 栈 。 例 如 ，IP 用 其 首 
部 的 ProtNum 字段 决定 一 个 分 组 属于 哪个 高 层 
协议 ( 即 TCP 或 UDP)， 而 TCP 使 用 端口 号 将 
TCP 分 组 分 解 到 正确 的 应 用 进程 。 对 比 多 路 复 
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用 Cmultiplexing) 。 

demultiplexing key (多 路 分 解 键 ): 分 组 首部 中 能 
使 多 路 分 解 得 以 进行 的 字段 (如 IP 的 ProtNum 
FBO. 

dense mode multicast (密集 模式 多 播 )， 大 多 数 路 
由 器 或 主机 需要 接收 多 播 分 组 时 使 用 的 PIM 
模式 。 

DES (Data Encryption Standard， 数 据 加 密 标准 ): 
一 种 基于 64 比特 秘密 密 钥 的 数据 加 密 算法 。 

DHCP (Dynamic Host Configuration Protocol， 动 态 
主机 配置 协议 ): 一 种 当主 机 目 举 时 使 用 的 协 
议 ， 用 来 获得 各 种 网 络 信息 ， 如 IP 地 址 。 

DHT (Distributed Hash Table， 分 布 式 散 列表 ) : 一 
种 根据 对 象 的 名 字 把 消息 路 由 到 一 个 文 持 特定 
对 象 的 计算 机 的 方法 。 该 对 象 锌 散 列 到 唯一 的 
标识 符 ， 每 一 中 间 节 点 沿路 由 转发 消息 到 一 个 


与 该 DD 共享 较 大 前 级 的 节点 。DHT 通常 用 在 


Differentiated Services (区 分 服务 ): 它 在 因特网 
上 提供 一 种 比 尽 力 服务 更 好 的 新 式 服务 体系 结 
构 ， 已 经 被 提议 用 作 综 合 服务 的 蔡 代 选择 。 

direct sequence (直接 序列 ): 将 数据 流 与 称 为 码 
片 的 随机 比特 序列 进行 异 或 操作 的 一 种 扩 频 
技术 。 

distance vector: (距离 向 量 ): 用 于 路 由 选择 的 最 
低 开 销路 径 算 法 。 每 个 节点 将 其 可 达 性 信息 及 
相关 开销 通告 给 直接 相 邻 的 节点 ， 并 用 收 到 的 
更 新 信息 构造 转发 表 。 路 由 选择 协议 RIP 使 用 
EES el ee BE, OT ER A Clink state), 

DMA (Direct Memory Access): 直接 存储 器 存 取 ，。 
一 种 将 主机 与 IO 设备 相连 的 方法 ,设备 可 以 
直接 从 主机 的 内 存 读 取 数据 或 直接 将 数据 写 和 人 
主机 内 存 。 参 见 PIO. 

DNA/DECNET (Digital Network Architecture， 数 字 
网 络 体 系 结构 ): 一 种 基于 OSI 的 体系 结构 ， 支 
持 无 连接 的 网 络 模型 和 面向 连接 的 传输 协议 。 

DNS (Domain Name System， 域 名 系统 )， 因特网 

的 分 布 式 命 名 系统 ， 用 来 将 主机 名 (如 
cicada. cs. princeton. edu) 解析 为 IP Hehi Cùn 
192. 12. 69. 35), DNS 是 通过 名 字 服 务 器 的 分 层 
结构 实现 的 。 

domain ( 域 ) : 既 可 以 指 在 分 层 DNS 名 字 空 间 中 
的 环境 〈 如 “edu” 域 )， 也 可 以 指 为 了 分 层 路 

由 选择 而 被 看 作 单 一 实体 的 一 个 因特网 区 域 。 





后 者 相当 于 自治 系统 Cautonomous system) 。 

DoS (拒绝 服务 ): 在 这 一 场景 中 ,一 个 攻击 市 点 
向 目标 节点 注 和 大量 负载 〈 大 量 分 组 )， 它 有 效 
地 使 合法 用 户 不 能 访问 该 节点 ， 因 此 它们 被 拒 
绝 服务 。 

DS3; 由 电话 公司 提供 的 一 种 44.7Mbps 的 传输 链 
路 服务 ， 也 称 为 T3。 

DSL (Digital Subscriber Line， 数 字 用 户 线 ): EW 
绞 电 话 线 上 以 每 秒 几 兆 比 特 的 速度 传输 数据 的 
一 系列 标准 。 

duplicate ACK (重复 确认 ): TCP 确认 的 重 传 。 重 
复 的 ACK 不 确认 任何 新 数据 。 多 次 收 到 重复 的 
ACK 会 触发 TCP 的 快速 重 传 (fast retransmit) 
机 制 。 | 

DVMRP ( Distance Vector Multicast Routing Proto- 
col， 距 离 向 量 多 播 路 由 选择 协议 ): Mbone 中 的 
大 多 数 路 由 器 所 使 用 的 多 播 路 由 协议 。 

DWDM (Dense Wavelength Division Multiplexing, 
密集 波 分 复 用 ) : 在 一 条 单一 的 物理 光纤 上 多 路 
复 用 多 个 光波 (多 个 颜色 )。 就 可 以 支持 大 量 光 

”波长 的 意义 来 说 ， 这 个 技术 是 “密集 的 ”。 

ECN (Explict Congestion Notification, @ xt Æ ik 
a1): 路 由 器 通过 在 转发 的 分 组 中 设置 一 个 标志 
来 通知 端 主机 有 关 拥 塞 情 况 的 一 种 技术 。 与 
RED 这 样 的 活动 队列 管理 算法 结合 使 用 。 

EF (Expedited Forwarding， 加 速 转发 ): 为 区 分 服 
务 提出 的 每 跳 行为 之 一 。 

EGP (Exterior Gateway Protocol， 外 部 网 关 协 议 ) : 
因特网 早期 的 域 间 路 由 选择 协议 ， 目 治 系 统 的 
Shab Se GE ak) 用 它 与 其 他 自治 系统 交换 
路 由 选择 信息 。 已 被 BGP 取代 。 

encapsulation (封装 ): 一 种 由 低层 协议 完成 的 操 
作 ， 将 高 层 协 议 传 下 来 的 消息 加 上 特定 协议 的 
首部 或 尾部 。 当 一 个 消息 下 传 到 协议 栈 时 ， 它 
收集 一 连 串 首部 ,最 外 层 的 首部 对 应 栈 底 的 
协议 。 | 

encryption (W): 对 数据 应 用 转换 功能 的 动作 ， 
其 目的 是 希望 只 有 数据 的 接收 方 〈 在 应 用 相反 
的 解密 (decryption) 功能 以 后 ) 才能 读 懂 它 。 
加 密 通常 依赖 于 一 个 由 收发 双方 共享 的 密 钥 或 
依赖 于 一 对 公开 /私有 密 钥 。 

Ethernet (以 太 网 ): 一 种 使 用 CSMA/CD 的 流行 
的 局 域 网 技术 ， 它 具有 10Mbps 的 带宽 。 以 太 网 
本 号 只 是 一 条 无 源 线 路 ， 所 有 与 以 太 网 传输 有 


关 的 功能 完全 由 主机 的 适配器 实现 。 

exponential backoff (指数 后 退 ): 一 种 重 传 策略 ， 
某 个 分 组 每 次 重 传 会 使 超时 值 加 倍 。 

exposed node problem (暴露 节点 问题 ) :在 无 线 网 
络 中 发 生 的 一 种 情况 ， 其 中 两 个 节 


源 接收 信号 ， 但 它们 都 能 到 达 不 接收 该 信号 
其 他 节点 。 

extended LAN (扩展 局 域 网 ): 由 网 桥 连 接 的 局 域 
网 的 集合 。 

fabric (网 状 结构 ): 交换 机 中 真正 完成 交换 的 部 
分 ， BUS Zire TE eS) TN 对 比 端口 
(port). 

fair queuing (FQ， 公 平 排队 法 ): 一 种 基于 循环 的 


排队 算法 ， 能 防止 行为 不 良 的 进程 任意 占用 很 
多 网 络 容量 


fast retransmit: 快速 重 传 。 一 种 由 TCP 使 用 的 策 
Ko Se TE bE oe FE AZ AE op 2H EEN SL eB A ER 
当 TCP 收 到 3 个 连续 的 重复 ACK， 并 确认 (不 
包括 ) 那个 分 段 之 前 的 所 有 数据 后 ， 就 重 传 该 
分 段 。 

FDDI (Fiber Distributed Data Interface， 光 纤 分 布 
式 数 据 接口 ): 一 种 运行 在 光纤 上 的 高 速 令 牌 环 
网 络 技术 。 

FEC: 前 向 纠 错 (Forward Error Correction), 
一 种 不 用 重 传 分 组 而 恢复 数据 分 组 中 的 比特 差 
错 的 通用 策略 。 每 个 分 组 中 含有 宛 余 信息 ， 接 
收 方 可 用 来 确定 哪些 比特 是 不 正确 的 。 对 比 
ARQ, 回转 发 等 价 类 (Forwarding Equivalence 
Class) ， 在 路 由 器 上 接收 相同 转发 待遇 的 分 组 ， 
MPLS 标签 通常 与 FEC 相关 联 。 

Fibre Channel (光纤 信道 ): 一 种 常用 于 将 计算 机 
(通常 是 超级 计算 机 ) 和 外 设 相连 的 双 回 链 路 协 
议 。 光 纤 信 道具 有 100MBps 的 带宽 ， 最 长 可 
ts 30m, 

firewall (防火 墙 ): 一 个 被 配置 成 过 滤 ARK) 
来 自 特定 源 的 分 组 的 路 由 器 。 用 于 实现 一 种 安 
全 策略 。 

flow control (流量 控制 ): 数据 的 接收 方 调节 发 送 
方 传输 速率 的 一 种 机 制 ， 以 便 使 数据 不 要 到 达 
太 快 以 至 于 来 不 及 处 理 。 对 比 拥 塞 控制 Ceon- 
gestion control), 

flowspec ( 流 说 明 ) : Wi BH — <A dit Pr fs BY Pl 2h tr Se 
-和 延迟 以 便 建立 预 留 ， 与 RSVP 一 起 使 用 。 

forwarding (转发 ): 路 由 器 对 每 个 分 组 执行 的 一 种 


FTP (File Transfer Protocol， 
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操作 ， 在 某 个 输入 端 收 到 分 组 ， 决 定 将 分 组 从 
哪个 输出 端 发 出 去 ， 并 将 分 组 发 送 到 那个 输 
forwarding table (转发 表 ): 路 由 器 中 维护 的 一 个 
表 ， 能 使 路 由 器 决定 如 何 转 发 分 组 。 建 立 转 发 
表 的 过 程 称 为 路 由 选择 ， 所 以 转发 表 有 时 也 称 
为 路 由 表 (routing table) 。 在 有 些 实 现 中 ， 路 由 
表 和 转发 表 是 独立 的 数据 结构 。 | 
fragmentation/reassembly (分 片 和 重组 ): 传输 消 
息 的 大 小 超过 网 络 MTU 时 采用 的 方法 。 消 息 
由 发 送 方 分 成 较 小 的 片 ， 由 接收 方 将 其 重新 

组 装 。 | 

frame ( 帧 ) ， 分 组 的 另 一 个 名 称 ， 通 常用 于 指 在 一 
条 链 路 上 而 不 是 在 整个 网 络 上 发 送 的 分 组 。 关 
于 帧 的 一 个 重要 问题 是 接收 方 如 何 检测 帧 的 开 

结束 ， 即 组 帧 问题 。 

Frame Relay (WFR de): 电话 公司 提供 的 一 种 面向 
连接 的 公用 分 组 交换 服务 。 

frequency hopping ( 跳 频 ) 
传输 数据 的 一 种 扩 频 技术 ， 


在 频率 的 随机 序列 上 


文件 传输 协议 ): 用 
于 在 两 个 主机 间 传 输 文件 的 因特网 体系 结构 的 
标准 协议 ， 建 立 在 TCP 之 上 。 

GMPLS (Generalized Multi-Protocol Label Switc- 
hing， 通 用 多 协议 标签 交换 ): 允许 IP 运行 在 光 
交换 网 络 上 。 

一 种 早期 的 因特网 信息 服务 。 
GPRS (通用 分 组 无 线 通 信服 务 ): eB 
提供 的 一 种 分 组 传输 服务 。 
GSM (Global System for Mobile Communication ， 全 
球 移动 系统 ): 普遍 使 用 的 数字 蜂窝 电话 系统 。 

H. 323: 通常 用 于 因特网 电话 的 会 话 控制 协议 。 

handle (句柄 ): 在 程序 设计 中 用 来 存 取 一 个 对 象 
的 标识 符 或 指针 。 

hardware address (硬件 地 址 ): 
的 主机 适配器 的 链 路 层 地 址 。 

HDLC (High-Level Data Link Control protocol, 高 
数据 链 路 控制 协议 ): 一 种 链 路 层 协议 的 ISO 标 
准 ， 使 用 a eee 

hidden node problem (隐藏 节点 问题 )， 在 无 线 网 
络 中 发 生 的 一 种 情况 ， 其 中 两 个 市 a al 
目标 发 送信 息 ， 但 每 个 节 扣 部 不 知道 为 一 个 市 
点 的 存在 。 


hierarchical routing (层次 路 由 ): 


gopher: 
无线 网 络 


用 于 标识 局 域 网 中 


一 种 多 层 路 由 选 
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择 方案 , 使 用 地 址 空间 的 分 层 结构 作为 转发 决 
策 的 基础 。 例 如 ， 分 组 首先 被 路 由 到 目标 网 络 ， 
然后 送 到 网 络 中 的 特定 主机 。 

host (主机 ): 连接 到 一 个 或 多 个 网 络 的 计算 机 ， 
支持 用 户 并 运行 应 用 程序 。 

HTML (Hyper Text Markup Language， 超 文本 标记 
语言 ): 一 种 用 于 构建 万 维 网 网 页 的 语言 。 

HTTP (HyperText Transport Protocol， 超 文本 传输 
协议 ) : 一 种 基于 请 求 / 啊 应 模式 的 应 用 层 协议 ， 
用 于 万 维 网 。HTTP 使 用 TCP 连接 传输 数据 。 

IAB (Internet Architecture Board， 因 特 网 体系 结构 
工作 委员 会 ) : 审查 因特网 体系 结构 协议 的 开发 
和 标准 化 的 主要 机 构 。 以 前 称 为 因特网 法 案 。 

iBGP (Interior BGP， 内 部 边界 网 关 协 议 ): 用 于 在 
同一 区 域 的 路 由 器 间 交 换 域 间 路 由 信息 的 协议 。 

ICMP (Internet Control Message Protocol， 网 际 控 
制 报 文 协 议 ) ， 该 协议 是 P 的 一 部 分 。 它 允许 
BS Fa at BK A ty EPL SUR ELI. IRA IP 
数据 报 处 理 过 程 中 的 错误 。 | | 

IEEE (Institute for Electrical and Electronics Engi- 
neers， 电 气 和 电子 工程 师 协会 ): 工程 师 的 专业 
协会 ， 也 定义 网 络 标准 ， 包 括 802 系列 局 域 网 
标准 。 

IETF (Internet Engineering Task Force， 因 特 网 工 
程 任务 组 ): 负责 开发 因特网 标准 和 最 佳 实践 的 
主要 组 织 。 

IMAP (Internet Message Access Protocol， 因 特 网 
消息 访问 协议 )， 允许 用 户 从 邮件 服务 器 读 取 其 
邮件 的 一 个 应 用 层 协议 。 

IMP-IMP: 在 最 时 的 ARPANET 中 使 用 的 面向 字 
T KIBEREN. 

Integrated Services (综合 服务 ): 通常 指 能 同时 有 
效 文 持 传 统 的 计算 机 数据 以 及 实时 音频 和 视频 
的 一 个 分 组 交换 网 ， 也 指 用 来 替代 现 有 的 尽力 
服务 模型 的 一 种 因特网 服务 模型 。 

integrity (完整 性 ): 在 网 络 安全 的 环境 中 确保 收 
到 的 消息 与 发 送 的 消息 相同 的 一 种 服务 。 

interdomain routing ( 域 间 路 由 ): 在 不 同 的 路 由 选 
择 域 之 间 交 换 路 由 信息 的 一 种 服务 。BGP 是 域 
间 路 由 协议 的 例子 。 

internet (互联 网 ): 通过 路 由 需 互 联 起 来 的 分 组 交 
换 网 的 集合 (可 能 是 异 构 的 )。 也 称 为 internet- 
work, 


Internet (因特网 ) : 基于 TCP/IP 体系 结构 的 全 球 





大 TA 


互联 网 ， 连 接 世 界 各 地 数 百 万 台 主 机 。 

interoperability ( 互 操作 性 ) : 指 异 构 的 硬件 以 及 多 
厂商 软件 通过 正确 地 交换 消息 进行 通信 的 能 

interrupt (中 断 ) :告诉 操作 系统 停止 当前 活动 并 
采取 某 种 行动 的 (通常 由 硬件 设备 产生 的 ) 一 
种 事件 。 例如， 有 一 种 中 断 是 用 来 通知 操作 系 
统 有 一 个 分 组 已 经 从 网 络 上 到 达 ，。 

intradomain routing (域内 路 由 选择 ): 在 一 个 域 或 
一 个 自治 系统 内 部 交换 路 由 选择 信息 。RIP 和 
OSPF 是 域内 路 由 选择 协议 的 实例 。 

IP (Internet Protocol， 网 际 协 议 ): 在 因特网 上 所 
供 一 种 无 连接 的 、 尽 力 传送 数据 报 服务 的 协议 。 
IPng (下 一 代 IP， 也 叫 作 IPv6): IP 的 新 版 本 ， 提 
供 更 大 更 多 的 层次 性 地 址 空间 和 其 他 新 的 特性 。 
IPsec (IP 安全 ): 用 于 认证 、 保 密 和 消息 完整 性 
的 一 种 体系 结构 ， 是 因特网 的 安全 服务 之 一 。 
IRTF (Internet Research Task Force, 特 网 研究 


任务 组 ) : IAB 的 一 个 部 门 ， 负 责 制 定 因 特 网 的 
研究 和 发 展 方向 。 


ISDN (Integrated Services Digital Network， 综 合 业 
务 数字 网 ): 由 电话 公司 提供 的 一 种 数字 通信 服 
4, 由 ITU-T 标准 化 。ISDN 将 话音 连接 与 数 
字数 据 服务 合并 在 单一 的 物理 介质 中 。 

IS-IS (Intermediate System to Intermediate Sys- 
tem): 一 种 链 路 状态 路 由 选择 协议 ， 类 似 于 
OSPF, 

ISO (International Standards Organization, E IR #7 
准 化 组 织 ) : 该 组 织 设计 了 七 层 OSI 体系 结构 以 
及 一 整套 在 商业 上 未 获 成 功 的 协议 。 

ITU-T; 国际 电信 联盟 的 附属 委员 会 ， 为 国际 模拟 
和 数字 通信 的 所 有 领域 制订 技术 标准 的 国际 组 
织 。ITU-T 制订 电信 和 标准， 包括 引 人 注 目的 
ATM 标准 。 

jitter (FBI): 指 网 络 时 延 的 变化 。 较 大 的 抖动 会 
对 视频 和 音频 应 用 的 质量 产生 负面 影响 。 

JPEG (Joint Photographic Experts Group， 联 合 图 
BERA): 通常 是 指 由 联合 图 像 专家 组 开发 的 
一 种 广泛 用 于 压缩 静止 图 像 的 算法 。 

Kerberos: MIT 开发 的 基于 TCP/IP 的 认证 系统 ， 
其 中 两 台 主 机 使 用 可 信 第 三 方 相 互 认证 。 

key distribution (BARA): 用 户 之 间 通 过 交换 数 
字 签 名 的 证 书 获 得 对 方 公 钥 的 一 种 机 制 。 

LAN (Local Area Network， 局域网 ) ， 一 种 基于 物 
理 网 络 技术 的 网 络 ， 最 多 可 跨越 几 公里 (例如 


以 太 网 或 FDDID. Xie SAN. MAN 和 WAN, 

LAN switch (局 域 网 交换 机 ) : 网 桥 (bridge) 的 另 
一 个 术语 ， 通 常用 于 具有 多 个 端口 的 网 桥 。 如 
Fe EE SC RF AY GES ROR EWR, LK A AK 
交换 机 。 

latency (时 延 ): 衡量 一 个 比特 从 链 路 或 信道 的 一 
端 到 达 男 一 端 所 需 的 时 间 。 
来 度量 。 

LDAP (Lightweight sii Access Protocol, $% 
量 级 目录 访问 协议 ) ， 最近 流行 的 一 种 用 户 信息 
目录 服务 X. 500 的 一 个 子 集 。 

LER (Label Edge router， 标 签 边缘 路 由 器 ):， 位 于 
MPLS 边缘 的 路 由 器 ， 对 到 达 的 IP 分 组 执行 完 
整 的 耻 查 询 ， 然 后 用 标签 作为 查询 结果 。 

link ( 链 路 ): 网 络 中 两 个 节点 之 间 的 物理 连接 。 
它 可 以 是 铜 线 或 光缆 ， 也 可 以 是 无 线 链 路 〈 例 
如 人 造 卫星 ) 。 

link-level protocol ( 链 路 层 协议 ): 负责 在 直接 相 
连 的 网 络 〈 例 如 以 太 网 、 令 牌 环 或 点 到 点 链 路 ) 
上 传送 帧 的 协议 。 也 称 为 link-layer protocol, 

link state ( 链 路 状态 ): 用 于 路 由 选择 的 最 小 开销 
路 径 算法 。 直 接连 接 的 邻居 的 信息 和 当前 链 路 
的 开销 被 扩散 给 所 有 路 由 器 ， 每 台 路 由 器 用 这 
个 信息 构造 网 络 图 ， 并 以 此 图 作为 转发 决策 的 
依据 。 开 放 最 短路 径 优先 “OSPF)〉 路 由 选择 协 
议 使 用 一 种 链 路 状态 算法 。 对 比 距离 向 量 (dis- 
tance vector) 。 

LSR (Label-Switching Router， 标 签 交 换 路 由 器 ): 
运行 卫 控制 协议 的 路 由 器 ， 但 使 用 MPLS 标签 

MAC (Media Access Control， 介 质 访 问 控 制 )， 用 
于 控制 访问 诸如 以 太 网 和 光纤 分 布 数 据 接口 
CEDDD 的 共享 介质 网 络 的 算法 。 

MACA ( Multiple Access with Collision Avoidance, 
带 冲 突 人 避免 的 多 路 访问 ): 用 于 调解 共享 介质 访 
问 的 分 布 式 算法 。 

MACAW (Multiple Access with Collision Avoidance 
for Wireless， 用 于 无 线 网 络 的 带 冲 突 避免 的 多 
路 访问 ): 是 通用 的 MACA 算法 的 一 种 改进 ， 
能 更 好 地 支持 无 线 网 络 。 已 由 802.11 采用 。 

MAN (Metropolitan Area Network， 城 域 网 ): 使 用 
新 网 络 技术 的 网 络 ， 这 些 新 技术 以 高 速 运行 
《可 达 几 个 Gbps) Ff A Pe E H E S EW Be m 
个 城市 的 区 域 。 对 比 SAN, LAN 和 WAN, 


时 延 严格 使 用 时 间 
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曼彻斯特 编码 ) : 一 种 比特 编码 方案 ， 
传输 的 是 时 钟 与 非 归 零 (NRZ) 编码 数据 的 异 
或 值 ， 用 于 以 太 网 。 

MBone (Multicast Backbone， 多 播 主 干 网 )， 构建 
在 因特网 上 的 一 个 逻辑 网 络 ， 其 中 具有 增强 的 
多 播 功能 的 路 由 器 使 用 隧道 技术 跨越 因特网 转 
发 多 播 数 据 报 。 

MD5 (Message Digest version 5， 报 文摘 要 版 本 
5): 一 种 有 效 的 密码 校 验 和 算法 ， 常 用 于 验证 
消息 的 内 容 未 被 改动 。 


MIB (Management Information Base, 


Manchester ( 


管理 信息 库 ) : 

一 个 网 络 节 点 上 可 以 读 写 的 与 网 络 相关 的 

变量 的 集合 。MIB 同 简单 网 络 管理 协议 
(SNMP) 一 起 使 用 。 

MIME (Multipurpose Internet Mail Extensions, # Ij 
能 因特网 邮件 扩展 ) : 将 二 进 制 数据 〈 如 图 像 文 
件 ) 转换 成 ASCI 文本 ， 然 后 通过 电子 邮件 传 
送 的 规范 。 

Mosaic: 一 种 以 前 流行 的 免费 图 形 界 面 WWW 浏 
览 锋 ， 由 位 于 伊利 诺 斯 州 大 学 的 美国 国家 超级 
计算 应 用 中 心 开 发 。 

MP3 (MPEG Layer 3，MPEG 第 三 层 ) 
一 起 使 用 的 音频 压缩 算法 。 

MPEG (Moving Picture Experts Group ， 运 动 图 像 专 
RA): 它 通 常用 来 指 由 MPEG 开发 的 压缩 视 
频 流 的 算法 。 

MPLS (Multiprotocol Label Switching， 多 协议 标签 
交换 ) ;在 第 二 层 (如 ATM) 交换 机 上 有 效 实 
现 IP 路 由 的 技术 集合 。 

MSDP (多 播 源 发 现 协议 ): 
协议 。 

MTU (Maximum Transmission Unit， 最 大 传输 单 
元 ): 在 一 个 物理 网 络 上 可 以 传输 的 最 大 分 组 的 
FS 3 

multicast (多 播 ): 广播 的 一 种 特殊 形式 ， 
传递 到 网 络 主机 的 一 个 指定 子 集 。 

multiplexing (多 路 复 用 ) : 将 多 个 不 同 的 信道 合并 
到 一 个 低层 信道 。 例 如 ， 分离 的 TCP 和 UDP 
信道 被 多 路 复 用 到 一 条 主机 到 主机 的 IP 信道 
上 上。 其 道 操 作 是 多 路 分 解 (demultiplexing)， 在 
接收 主机 上 执行 

name resolution (名 字 解 析 ): 将 主机 的 名 字 5 
Fie) 翻译 成 对 应 的 地 址 (机 妖 可 读 )。 参 
JL DNS, 


eee 


用 于 实现 域 间 多 播 的 


分 组 被 


NAT (Network Address Translation, [i 2% it tik 
换 ) : 一 种 扩展 IP 地 址 空间 的 技术 ， 在 站 点 或 
网 络 边 界 的 本 地 唯一 地 址 和 全 球 理 解 的 IP 地 址 
之 间 进 行 转换 。 

NDR (Network Data Representation, M 2% 20 1E R 
AR): 在 分 布 式 计算 环境 (DCE) 中 使 用 的 数据 
编码 标准 ， 由 开放 软件 基金 会 定义 。NDR 使 用 
接收 方 保证 正确 的 策略 并 将 体系 结构 标志 插入 
到 每 个 消息 的 前 部 。 

network-level protocol (网 络 层 协 议 ): 在 交换 网 络 
上 运行 的 协议 ， 直 接 在 链 路 层 之 上 。 

NFS (Network File System， 网 络 文件 系统 ): 一 种 
由 Sun 微 系统 公司 开发 的 流行 的 分 布 式 文件 系 
统 ， 基 于 Sun 公司 开发 的 一 种 RPC 协议 .SunR- 
PC, 

NIST (National Institute for Standards and Technolo- 
gy， 美 国 国家 标准 技术 协会 ): 美国 官方 的 标准 
化 组 织 。 

node (节点 ): 用 于 表示 构成 网 络 的 单个 计算 机 的 
通用 术语 。 节 点 包括 通用 计算 机 、 交 换 机 和 路 
由 器 。 

NRZ (Non-Return to Zero， 非 归 零 编码 ): 一 种 比 
特 编 码 方案 ， 将 1 编 为 高 信号 ，0 编 为 低 信号 。 
NRZI (Non-Return to Zero lnverted， 非 归 零 反 转 编 
码 ) :一 种 比特 编码 方案 ， 在 当前 信号 跳 变 时 编 

码 为 1， 在 当前 信号 不 变 时 编码 为 0。 

NSF (National Science Foundation, =H HR # = 
基金 会 ) : 美国 政府 资助 其 国内 科学 研究 的 机 
构 ， 包 括 对 网 络 和 因特网 基础 设施 的 研究 。 

OC (Optical Carrier， 光 载波 ) : 它 是 SONET 光 传 


输 的 各 种 速率 的 前 级 。 例 如 ，OC-1 指 在 光纤 上 


传输 速率 为 51. 84Mbps 的 SONET 标准 。OC-n 
信号 与 STS-n 信号 的 差别 ， 仪 在 于 OC-n 信号 是 
用 于 对 光 传 输 进行 扰 频 的 。 

ONC (Open Network Computing, 开放 网 络 计算 ) : 
钙 因 特 网 采纳 为 标准 的 SunRPC 的 一 个 版 本 。 
OSF (Open Software Foundation， 开 放 软 件 基金 
Z): 一 个 计算 机 厂商 的 联合 会 ， 为 分 布 式 计算 
定义 了 多 种 标准 ， 包 括 国家 数据 表示 (NDR) 

格式 。 | | 


optical switch ( 光 交 换 机 ): 一 种 能 将 来 自 输 入 端 
口 的 光波 不 需 转 换 成 电子 信号 就 能 转发 到 输出 


“端口 的 交换 设备 。 
OSI (Open Systems Interconnection, 开放 系 统 互 


i): 由 ISO 开发 的 七 层 网 络 参考 模型 。 指 导 
ISO 和 ITU-T 协议 标准 的 设计 。 

OSPF (Open Shortest Path First， 开 放 最 短路 径 优 
先 ): 由 IETF 为 因特网 体系 结构 开发 的 路 由 协 
W, OSPF 是 基于 链 路 状态 Clinkstate) 的 算 
法 ， 其 中 每 个 结 点 构造 因特网 的 一 个 拓扑 图 并 
根据 该 图 做 出 转发 决定 。 

overlay (覆盖 ) : 运行 在 已 存在 物理 网 络 上 的 一 个 
虚拟 CZE) 网 。 履 盖 节 点 彼此 通过 隧道 而 不 
是 物理 链 路 进行 通信 。 由 于 覆盖 不 要 求 现 有 网 
络 基 础 设施 的 协作 ， 因 此 通常 用 来 部 署 新 的 网 
络 服务 。 

packet (分 组 ) ， 在 分 组 交换 网 上 发 送 的 数据 单元 。 
参见 帧 (Crame) 和 分 段 〈segment) 。 

packet switching (分 组 交换 ): 在 网 络 上 交换 数据 
的 通用 策略 。 分 组 交换 使 用 存储 转发 机 制 交换 
称 为 分 组 的 离散 数据 单元 ， 并 包含 统计 多 路 复 
用 (statistical multiplexing) 。 

participants (参与 者 ) : 用 于 表示 相互 发 送 消息 的 
进程 、 协 议 或 主机 的 通用 术语 。 

PAWS (Protection Against Wrapped Sequence num- 
bers， 防 止 序号 回 绕 ): 设计 具有 足够 大 序号 空 
间 的 传输 协议 ， 以 防止 在 一 个 分 组 可 能 被 长 时 
间 延 迟 的 网 络 上 出 现 序号 回 绕 。 

PDU (Protocol Date Unit， 协 议 数 据 单元 ) : 分 组 或 
帧 的 另 一 个 名 称 。 

peer (对 等 实体 ) : 指 一 个 主机 上 的 协议 模块 为 实 
现 某 些 通信 服务 而 与 之 交互 的 另 一 个 主机 上 的 
对 等 体 。 

peer-to-peer networks (对 等 网 ) : 将 应 用 逻辑 ( 例 
如 文件 存储 ) 与 路 由 选择 集成 的 一 类 通用 应 用 。 
有 名 的 例子 包括 Napster 和 Gnutella, WX R A 
通常 使 用 分 布 式 散 列 表 。 

PEM (Privacy Enhanced Mail， 隐 私 增强 邮件 ): 对 
因特网 电子 邮件 扩展 ， 支 持 保 密 性 和 完整 性 保 
护 。 参 见 PGP. | 

PGP (Pretty Good Privacy, BURA): 公用 域 软 
件 的 一 个 集合 ， 它 们 用 RSA 提供 保密 性 和 认证 
能 力 ， 并 使 用 公 钥 分 发 信任 网 络 进行 密 钥 分 发 。 

PHB (Per-Hop Behavior, 1TA): 区 分 服务 体 
系 结构 中 单个 路 由 器 的 行为 。AF 和 EF 是 两 种 
建议 的 PHB。 

physical-level protocol (物理 层 协 议 ): OSI 协议 栈 
的 最 低层 。 它 的 主要 功能 是 将 比特 编码 为 可 在 


物理 传输 介质 上 传输 的 信号。 

piconet (RHM): 得 距离 (如 10m) 的 无 线 网 
络 。 可 以 不 使 用 电缆 而 连接 办 公 室 的 计算 机 
(笔记 本 电脑 、 打 印 机 、PDA、 工 作 站 等 )。 

PIM (Protocol Independent Multicast, 协议 无 关 多 
播 )， 可 以 建造 在 不 同 的 单 播 路 由 协议 上 的 多 播 
路 由 协议 。 

Ping: 用 于 测试 因特网 上 到 不 同 主机 的 RTT 的 
UNIX TH. Ping 发 送 一 条 ICMP ECHO RE- 
QUEST 消息 ， 然 后 远程 主机 发 回 一 个 ECHO _ 
RESPONSE 消息 。 

PIO (Programmed Input/Output, 可 编程 输入 / 输 
出 ) ， 一 种 连接 主机 到 I/O 设备 的 方法 ，CPU 从 
WO 设备 读数 据 并 向 IO 设备 写 数 据 。 参 
见 DMA, , 

poison reverse (毒性 逆转 ):， 和 水 平分 割 (split 
horizon) 结合 使 用 ， 是 距离 向 量 路 由 选择 协议 
中 避免 路 由 环 路 的 一 种 局 发 式 技术 。 

port (端口 ): 用 于 表示 一 个 网 络 用 户 连接 到 网 络 
结 点 的 通用 术语 。 在 交换 机 上 ， 端 口 表示 接收 
和 发 送 分 组 的 输入 或 输出 。 

POTS (Plain Old Telephone Service， 简易 老式 电 
话 服 务 ): 用 于 说 明 现 在 的 电话 服务 与 ISDN, 
IP 电话 (VoIP) 或 电话 公司 现在 及 将 来 提供 的 
其 他 技术 截然 不 同 。 

PPP (Point-to-Point Protocol， 点 到 点 协议 ) ， 指 通 
党 通过 拨号 线路 连接 计算 机 的 数据 链 路 协议 。 
process (进程 ) : 由 操作 系统 提供 的 一 种 抽象 ， 多 
” 许 不 同 的 操作 并 发 执行 。 例 如， 每 个 用 户 应 用 
程序 通常 在 自己 的 进程 内 进行 ， 而 各 种 操作 系 

统 功能 则 在 其 他 进程 内 进行 。 

promiscuous mode (混杂 模式 ): 网 络 适 配 妖 的 一 
种 操作 模式 ， 适 配 颖 接收 网 络 上 传送 的 所 有 帧 ， 
而 并 不 仅仅 是 发 送 给 它 的 那些 帧 。 

protocol (协议 ): 运行 在 不 同 计算 机 上 的 模块 之 
间 的 接口 规范 ， 以 及 那些 模块 实现 的 通信 服务 。 
这 个 术语 也 用 来 表示 满足 规范 的 模块 实现 。 为 
了 区 别 这 两 种 用 法 ， 接 口 通常 叫 作 协议 规范 
(protocol specification) 。 

proxy (RE): 位 于 客户 与 获取 消息 并 提供 服务 的 
服务 器 之 间 的 一 个 智能 体 。 例 如 ， 代 理 可 以 充 
当 服 务 器 的 “替身 ”来 响应 客户 的 请 求 ， 可 能 
使 用 它 缓存 的 数据 ， 而 不 必 联 系 服 务 需 。 

pseudoheader ( 伪 首 部 ): 卫 首 部 中 的 字段 的 子 
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集 ， 向 上 传递 给 传输 层 协议 TCP 和 UDP, Wk 
在 它们 计算 校 验 和 时 使 用 。 伪 首部 包括 源 和 目 
的 IP 地址 以 及 IP 数据 报 长 度 ， 因 此 能 够 用 来 检 
测 这 些 字 段 是 否 被 破坏 或 一 个 分 组 是 否 被 传送 
到 不 正确 的 地 址 。 

public key encryption ( 公 钥 加 密 )， 一 种 加 密 算法 
(如 RSA)， 其 中 每 个 参与 者 有 一 个 私 钥 (不 与 
任何 人 共享 ) 和 一 个 公 钥 (每 人 都 可 以 获得 )。 
一 条 保密 消息 使 用 用 户 的 公 钥 加 密 数 据 后 发 送 
给 用 户 。 由 于 需要 用 私 钥 解密 消息 ， 因 此 只 有 
接收 方 可 以 读 消息 。 

QoS (Quality of Service， 服 务 质 量 ): 由 网 络 体系 
结构 提供 的 分 组 传送 保证 。 通 常 与 性 能 保证 有 
关 ， 如 带宽 和 延迟 。 因 特 网 提供 尽力 传输 服务 ， 
即 尽 力 传输 一 个 分 组 ， 但 不 确保 正确 传输 。 

RED (Random Early Detection， 随 机 早期 检测 ): 
路 由 余 的 一 种 排队 规则 ， 当 预测 到 拥塞 时 ， 随 
机 丢弃 分 组 ， 警 告发 送 方 放 慢 发 送 速率 。 

rendezvous point (汇集 点 ): PIM 所 使 用 的 允许 接 
收 方 了 解 发 送 方 的 路 由 器 。 

repeater (中 继 器 ) : 一 种 将 电信 号 从 一 个 以 太 网 
电缆 传播 到 另 一 个 以 太 网 电缆 的 设备 。 一 个 以 
太 网 的 任何 两 台 主 机 之 间 最 多 可 能 有 两 台中 继 
器 。 中 继 器 转发 信号 ， 而 网 桥 Cbridge) HAM 
(frame)， 路 由 器 (router) Al X HAL Cswitch) 
转发 分 组 (packet). 

REST (Representational State Transfer， 表 述 性 状 
态 转 移 ):; 使 用 HTTP 作为 通用 应 用 协议 构建 
Web 服务 的 一 种 方法 。 

RFC (Request For Comments, 请求 评论 ): 因特网 
报告 ， 其 中 包含 像 TCP 和 IP 这 样 的 协议 规范 。 

RIP (Routing Information Protocol， 路 由 信息 协 
iM): Berkeley Unix 提供 的 域内 路 由 协议 。 每 个 
运行 RIP 的 路 由 器 动态 地 建立 基于 距离 向 量 
(distance-vector) 算法 的 转发 表 。 

router (路 由 器 ): 连接 两 个 或 多 个 网 络 的 网 络 节 
点 ， 把 分 组 从 一 个 网 络 转发 到 另 一 个 网 络 。 对 
比 网 桥 (bridge)、 中 继 器 (repeater) 和 交换 机 
Cswitch) 。 8 

routing (路 由 ): 一 个 进程 ， 市 点 通过 它 交 换 用 于 
构建 正确 转发 表 的 拓扑 结构 信息 。 参见 转发 
(forwarding)、 链 路 状态 Clink state) 和 距离 向 
量 (distance vector), 


routing table (HBAS): 参见 转发 表 (forwarding 


table) 。 

RPB (Reverse Path Broadcast， 逆向 路 径 广 播 ): 
用 于 消除 重复 广播 分 组 的 一 种 技术 。 

RPC (Remote Procedure Call， 远 程 过 程 调 用 ) ， 很 
多 客户 /服务 器 交互 使 用 的 同步 请 求 / 应 答 传 输 
协议 。 

RPR (Resilient Packet Ring， 弹 性 分 组 环 ): 主要 
用 于 城 域 网 的 一 种 环 网 类 型 。 人 参见 802. 17。 

RSA; 一 种 公共 密 钥 加 密 算 法 ， 根 据 发 明 者 Riv- 

‘erst, Shamir, Adleman 的 名 字 命 名 。 

RSVP (Resource Reservation Protocol， 资 源 预 留 
协议 ) : 在 网 络 中 预 留 资源 的 协议 。RSVP 使 用 
路 由 器 中 软 状 态 (soft state) 的 概念 ， 将 预 留 
资源 的 责任 放 在 接收 方 而 不 是 发 送 方 。 

RTCP (Real-time Transport Control Protocol, 实时 
传输 控制 协议 ): 与 RTP 相关 的 控制 协议 。 

RTP (Real-time Transport Protocol， 实 时 传输 协 
W): 有 实时 性 约束 的 多 媒体 应 用 所 使 用 的 端 到 
端 协议 。 

RTT (Round-Trip Time， 往返 时 间 ): 信息 的 一 个 
比特 从 链 路 或 信道 的 一 端 到 另 一 端 再 返回 所 用 
的 时 间 ， 换 名 话说 ， 它 是 信道 时 延 的 两 倍 。 

SAN (System Area Network， 系 统 区 域 网 络 ) ， 跨 
越 一 个 计算 机 系统 不 同 部 分 〈 如 显示 器 、 摄 像 
Sk, WER) 的 网 络 。 有 时 代表 存储 区 域 网 〈stor- 
age area network) ， 包 括 像 HiPPI 和 光纤 信道 这 
样 的 接口 。 对 比 LAN、MAN 和 WAN. 

schema (大 纲 ) :说明 如 何 构造 和 解释 一 组 数据 的 
规范 ， 是 为 XML 文档 定义 的 。 

scrambling ( 扰 频 ): 在 传输 前 将 一 个 信号 与 伪 随 
机 比特 流 进行 异 或 操作 的 进程 ， 以 便 能 实现 时 
钟 恢 复 所 需 的 足够 的 信号 转变 。 扰 频 用 于 SO- 
NET 中 。 

.SDP (Session Description Protocol， 会 话 描 述 协 
议 ): 用 于 获悉 音频 /视频 信道 可 用 性 的 应 用 层 
协议 。 它 记录 会 话 的 名 称 和 目的 、 开 始 和 结 
的 时 间 、 媒 体 类 型 (例如 音频 、 视 频 ) 以 及 接 
收 会 话 的 详细 信息 〈 例 如 多 播 地 址 、 传 输 协 议 
和 使 用 的 端口 号 )。 

SHA (Secure Hash Algorithm， 安 全 散 列 算法 ): 一 
系列 加 密 散 列 算法 中 的 一 个 。 

segment ( 报 文 段 ): — TCP 分 组 。 一 个 报 文 段 
包含 的 正在 由 TCP 发 送 的 字 节 流 的 一 部 分 。 

SELECT: 用 于 构建 远程 过 程 调用 协议 的 一 个 同步 





多 路 分 解 协 议 。 

semaphore (信号 量 ) : 用 于 支持 进程 间 同 步 的 一 
个 变量 。 通 常 ， 一 个 进程 阻塞 (block) 在 一 个 
信号 量 上 ， 等 待 另 一 个 进程 给 此 信号 量 发 信号 。 

server (服务 器 ) : 客户 /服务 器 分 布 式 系 统 中 的 服 
务 提 供 者 。 

signalling (ES): 在 物理 屋 ,， 它 表示 经 过 菏 种 物 
理 介质 的 信号 的 传输 。 在 ATM 中 ， 信 令 是 指 建 
立 虚 电路 的 进程 。 

silly window syndrome (傻瓜 窗口 症状 ):， TCP 中 
发 生 的 一 种 情况 。 发 送 方 发 送 一 个 小 数据 段 就 
能 填 满 窗口 ， 如 果 每 次 接收 方 打开 接收 窗口 很 
小 时 就 会 发 生 这 种 情况 ， 结 果 是 产生 很 多 小 数 
据 段 ， 不 能 充分 使 用 带宽 。 

SIP (Session Initiation Protocol, 会 话 初 始 化 协 
Mm): 用 于 多 媒体 应 用 的 应 用 层 协 议 。 它 确定 与 
特定 的 用 户 通 信 的 恰当 设备 ,确定 用 户 是 否 愿 
意 或 能 够 参加 一 个 特定 的 通信 和 会话， 确定 选择 
使 用 哪 种 介质 和 编码 方案 ， 并 建立 会 话 的 参数 
(如 端口 号 ) 。 

sliding window (滑动 窗口 ): 允许 发 送 方 在 接收 到 
一 个 确认 之 前 发 送 多 个 (最 多 是 窗口 的 尺寸 ) 
分 组 的 算法 。 当 和 窗口 中 先 被 发 出 的 那些 分 组 的 
确认 返回 后 ,窗口 就 “滑动 "然后 可 以 发 送 更 
多 的 分 组 。 滑动 窗口 算法 将 可 靠 传输 与 高 否 吐 
量 结合 起 来 。 参 见 ARQ. 

slow start (BABI): TCP 的 一 个 防止 拥塞 的 算 
法 ， 学 试 协调 输出 数据 段 的 速度 。 对 于 每 个 返 
回 的 ACEKE， 再 发 送 两 个 分 组 ， 使 得 未 传输 的 数 
据 段 的 数目 呈 指 数 增长 。 

SMTP (Simple Mail Transfer Protocol， 简 单 邮 件 传 
输 协 议 ) : 因特网 的 电子 邮件 协议 。 参 见 822. 
SNA (System Network Architecture， 系 统 网 络 体系 

结构 ): IBM 的 专 有 网 络 体系 结构 。 

SNMP (Simple Network Management Protocol, 8] 
单 网 络 管理 协议 ) : 一 个 允许 监视 主机 、 网 络 和 
路 由 般 的 因特网 协议 。 

SOAP; 用 于 定义 和 实现 应 用 协议 的 Web 服务 框架 
的 组 件 。 

socket (Bi): 由 Unix 提供 的 对 TCP/IP 应 用 
程序 的 应 用 编程 接口 CAPD 的 抽象 。 

soft state ( 软 状 态 ): 包含 在 路 由 器 中 的 与 连接 
有 关 的 信息 ， 它 被 缓存 一 段 有 限 的 时 间 ， 而 
不 是 通过 连接 建立 阶段 被 明确 建立 (并 需要 


明确 撤销 ) 。 

SONET (Synchronous Optical Network, E 4 3 2f 
网 络 ) : 在 光纤 上 进行 数字 传输 的 基于 时 钟 的 建 
帧 标准 ， 定 义 电 话 公 司 如 何在 光纤 网 络 上 传输 

source routing (MF R E): 指 在 分 组 被 发 送 之 前 ， 
由 源 端 来 做 出 路 由 选择 决定 。 路 由 包括 分 组 到 
目的 端 途中 经 过 的 节点 列表 。 

source-specific multicast (特定 源 多 播 ): 一 种 多 播 
方式 ， 其 中 一 个 组 可 以 只 有 一 个 发 送 方 。 

sparse mode multicast ( 稀 朴 模式 多 播 ): 当 相 对 的 
少数 主机 或 路 由 器 需要 接收 某 个 组 的 多 播 数据 
时 在 PIM 中 使 用 的 模式 。 

split horizon (水 平分 割 ) : 在 距离 向 量 路 由 算法 中 
打破 路 由 循环 的 一 种 方法 。 当 一 个 节点 发 送 一 
条 路 由 更 新 信息 给 它 的 邻居 时 ， 并 不 把 从 每 个 
邻居 处 得 知 的 路 由 再 发 还 给 那个 邻居 。 水 平分 
制 和 毒性 逆转 一 起 使 用 。 

spread spectrum ( 扩 频 ): 一 种 编码 技术 ， 在 比 需 
要 的 更 宽 的 频率 上 扩展 一 个 信号 ， 使 得 干扰 的 
影 啊 降 至 最 小 。 

SSL (Secure Socket Layer， 安 全 套 接 字 层 ): 运行 
Æ TCP 之 上 的 一 个 协议 层 ， 提 供 连 接 的 认证 和 
加 密 ， 也 称 为 传输 层 安 全 (TLS)。 

statistical multiplexing (统计 多 路 复 用 ): 在 一 条 共 
享 链 路 或 信道 上 多 数据 源 的 基于 请 求 的 多 路 
复 用 。 

stop-and-wait (停止 -等 待 ): 一 种 可 靠 的 传输 算 
法 ， 发 送 方 发 送 一 个 分 组 ， 然后 在 发 送 下 一 个 
分 组 之 前 等 竺 应答 。 与 滑动 窗口 (sliding win- 
dow) 和 并 发 逻辑 信道 (concurrent logical chan- 
nels) 比较 。 人 参见 ARQ, 

STS (Synchronous Transport Signal， 同 步 传 输 信 号 ) ， 
SONET 的 不 同 传输 速率 的 前 缀 。 例 如 ，STS1 
是 指 用 于 51. 84Mbps 传输 的 SONET 标准 。 

subnetting (划分 子 网 ): 用 一 个 IP 网 络 地 址 表示 多 
个 物理 网 络 ， 子 网 内 的 路 由 器 使 用 子 网 挤 码 来 找 
到 分 组 应 被 转发 到 哪个 物理 网 络 。 划 分 子 网 实际 
LEEW EAM IP 地 址 中 引入 另 一 层 。 

SunRPC: 由 Sun 微 系 统 公 司 开 发 的 远程 过 程 调用 
协议 。SunRPC 用 于 支持 NFS。 参 见 ONC. 

switch (交换 机 ): 基于 每 个 分 组 中 的 首部 信息 将 
分 组 从 输入 端 转 发 到 输出 端的 网 络 节 点 。 与 路 
由 需 的 主要 区 别 是 它们 通 篆 不 用 来 互联 不 同类 
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型 的 网 络 。 

switching fabric (交换 机 构 ): 将 分 组 从 输入 端 引 
导 到 正确 输出 端的 交换 机 的 部 件 。 

T1: 等 价 于 24 条 ISDN 电路 或 1. 544Mbps 的 一 种 
标准 电话 载波 服务 ， 也 称 为 DSL. 

T3: SOF 24 条 Tl 电路 或 者 44. 736Mbps 的 一 
种 标准 电话 载波 服务 ， 也 称 为 DS3。 

TCP (Transmission Control Protocol， 传 输 控 制 协 
议 ): 因特网 体系 结构 的 面向 连接 的 传输 协议 ， 
提供 可 靠 的 字 节 流传 输 服务 。 

TDMA (Time Division Multiple Access， 时 分 多 路 复 
FA): 用 于 蜂 帘 无 线 网 络 的 一 种 多 路 复 用 形式 ， 
也 是 一 个 特定 无 线 标准 的 名 字 。 

Telnet， 因 特 网 体系 结构 的 远程 终端 协议 。Telnet 
可 以 使 用 户 与 一 个 远程 系统 交互 ， 就 好 像 用 户 
终端 直接 连 在 那 台 计算 机 上 一 样 。 

throughput (吞吐 量 ) ， 当 发 送 数据 通过 一 个 信道 时 
观察 到 的 速率 。 这 个 术语 有 时 与 带宽 〈band- 
width) 互 换 使 用 。 

TLS (Transport Layer Security， 传 输 层 安全 ): 可 
PATER TCP 这 样 的 传输 协议 上 的 安全 服务 ， 
通常 外 HTTP 用 来 完成 万 维 网 上 的 安全 事务 。 
起 源 于 SSL. | 

token bucket ( 令 牌 桶 ): fH Bk EA it Br A ae 
宽 的 一 种 方法 。 从 概念 上 讲 ， 进 程 随时 间 积 累 
令 牌 ,并且 必须 用 掉 一 个 令 牌 来 传输 数据 的 一 
个 字 节 ， 然 后 在 没有 剩余 令 牌 时 必须 停止 发 送 。 
这 样 ， 总 的 带宽 受到 某 种 帘 发 性 调节 的 限制 。 

token ring (SHI): 将 主机 连 成 一 个 环 的 物理 网 
络 技术 ， 一 个 令 牌 〈 比 特 模 式 ) 绕 环 路 循环 ， 
一 个 给 定 的 节点 在 被 允许 传输 之 前 必须 拥有 令 
牌 。802.5 和 FDDI 是 令 牌 环 网 络 的 例子 。 

transport protocol (传输 协议 ) : 使 不 同 主 机 上 的 进 
程 进行 通信 的 端 到 端 协 议 。TCP 是 一 个 典型 的 
示例 。 | 

TTL (Time to Live， 生 存 期 ): 它 通 常 是 一 个 IP 数 
据 报 在 被 丢弃 之 前 能 够 经 历 的 跳 数 《〈 路 由 答 ) 
的 一 个 度量 值 。 

tunneling (Bie): 使 用 运行 在 与 分 组 同一 层 上 的 
协议 封装 一 个 分 组 。 例 如， 多 播 IP 分 组 封装 在 
单 点 播送 IP 分 组 中 ， 经 隧道 穿 过 因特网 实现 
Mbone。 隧 道 也 可 用 于 从 IPv4 到 IPv6 的 转换 。 

two-dimensional parity (二 维 奇偶 校 验 ): 将 字 节 从 
概念 上 排列 成 一 个 矩阵 的 奇偶 校 验 方案 ， 同 时 
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计算 行 和 列 的 奇偶 性 。 

Tymnet: 一 个 早期 的 网 络 ， 在 一 个 路 由 器 集合 间 
维护 的 一 个 虚 电 路 (virtual circuit) 。 

UBR (Unspecified Bit Rate， 未 指明 比特 率 ): ATM 
中 的 “不 提供 不 必要 服务 ”的 一 类 服务 ， 提 供 尽 
力 的 信 元 传送 。 对 比 ABR, CBR 和 VBR, 

UDP (User Datagram Protocol， 用 户 数 据 报 协 议 ): 
因特网 体系 结构 的 传输 协议 ， 提 供应 用 层 进 程 
之 间 的 无 连接 的 数据 报 服 务 。 

UMTS (Universal Mobile Telecommunications Sys- 
tem， 通 用 移动 通信 系统 ): 基于 宽带 CDMA 的 
蜂 窗 无 线 标准 ， 提 供 较 高 的 数据 传输 率 。 

unicast (#8): 指 发 送 一 个 分 组 给 一 个 单独 的 目 
的 主机 。 对 比 广 播 Cbroadcast) 和 多 播 《multi- 
cast) 。 

URI (Uniform Resource Identifier， 统 一 资源 标识 
符 ) : 推广 的 URL。 例 如 ， 与 SIP 联合 使 用 建立 
音频 /视频 会 话 。 

URL (Uniform Resource Locator， 统 一 资源 定位 
FF): 用 于 识别 因特网 资源 位 置 的 一 个 文本 串 。 
一 个 典型 的 URL 形 如 http://www. cisco. com, 
在 这 个 URL F, http 是 一 个 协议 ， 用 于 访问 位 
于 主机 www. cisco. com 上 的 资源 。 

vat; 因特网 上 使 用 的 运行 在 RTP 之 上 的 音频 会 议 
TEs 

VBR (Variable Bit Rate, Att 2): ATM 中 
的 服务 类 型 之 一 ， 用 于 带宽 需求 随时 间 变 化 的 
应 用 ， 如 压缩 的 视频 图 像 。 对 比 ABR, CBR 
和 UBR, 

VCI (Virtual Circuit ldentifier， 虚 电路 标识 符 ): € 
是 分 组 首部 中 的 一 个 标识 符 ， 用 于 虚 电 路 交换 。 
在 ATM 的 情况 下 ，VPI 和 VCI 一 起 标识 端 到 
端的 连接 。 

vic: 基于 Unix 的 使 用 RTP 的 视频 会 议 工具 。 

Virtual circuit (2 FR ES): 它 是 由 面向 连接 的 网 络 
(如 ATM) 提供 的 抽象 。 要 想 在 参与 者 之 间 交 
换 消 息 ， 就 必须 在 数据 发 送 之 前 建立 一 条 虚 电 
路 〈 并 可 能 为 虚 电 路 分 配 资源 )。 对 比 数据 报 
(datagram) 。 

virtual clock (虚拟 时 钟 ); 一 种 服务 模型 ， 人 允许 源 
端 使 用 其 需要 的 基于 速率 的 描述 在 路 由 器 上 预 
留 资 源 。 虚 拟 时 钟 不 属于 当前 因特网 的 尽力 传 
Fat ARF | 

VPI (Virtual Path Identifier, gz BS 7% i #): 


ATM 首部 中 的 一 个 8 比特 或 12 比特 字段 。 VPI 
可 用 于 将 穿 过 一 个 网 络 的 多 个 虚 连 接 隐 藏 为 一 
条 虚 “ 路 径 >， 从 而 减少 交换 机 所 必须 维护 的 连 
接 状 态 的 数量 。 参 见 VC 

VPN (Virtual Private Network， 虚 拟 专 用 网 ): 处 在 
某 些 现 有 网 络 之 上 的 逻辑 网 络 。 例 如 ， 一 个 公 
司 在 世界 范围 内 有 一 些 站 点 ， 它 可 以 在 因特网 
的 顶部 建 一 个 虚拟 网 络 ， 而 不 必 租 用 每 个 站 扣 
之 间 的 线路 。 

WAN (Wide Area Network, R): 指 可 以 跨越 
远 距 离 (如 穿 过 国家 ) 的 任何 物理 网 络 技术 。 
对 比 SAN、LAN 和 WAN, 

well-known port (周知 端口 ): 它 通 常 是 一 个 由 某 
个 特殊 服务 器 使 用 的 端口 号 。 例如， 域名 服务 
器 在 每 个 主机 的 众所周知 的 UDP 和 TCP 端口 
53 上 接收 消息 。 

weighted fair queuing (WFQ， 加 权 公 平 排队 法 ): 
公平 排队 法 (fair queuing) 的 一 个 变种 ， 可 以 
为 每 个 流 给 定 一 个 网 络 容 量 的 不 同 份额 。 

WSDL (Web Service Description Language, Web 
服务 描述 语言 ): 用 于 定义 和 实现 应 用 协议 的 
Web 服务 框架 组 件 。 

WWW (World Wide Web, 万 维 网 ): 因特网 上 的 
一 种 超 媒 体 信息 服务 。 

X. 25; ITU 的 分 组 交换 协议 标准 。 

X. 400: ITU 的 电子 邮件 标准 ， 与 因特网 体系 结构 
中 的 SMTP 相对 应 。 

X. 500: ITU 的 目录 服务 标准 ， 和 定义 一 种 基于 属性 
的 命名 服务 。 

X. 509: ITU 的 一 个 数字 证 书 标准 。 

XDR (External Data Representation， 外 部 数据 表 
Am): Sun 微 系统 公司 的 与 机 器 无 关 的 数据 结构 
的 标准 。 对 比 ASN. 1 和 NDR. 

XML (Extensible Markup Language， 可 扩展 标记 语 
A): 用 于 描述 因特网 应 用 程序 之 间 传 递 的 数据 
的 一 种 语法 规则 。 

XSD (XML Schema Definition): XML 大 纲 定 义 。 
用 于 定义 XML 对 象 格式 和 解释 的 模型 语言 。 
zone (区 域 ) :域名 分 层 结 构 的 一 个 划分 ， 对 应 于 
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区 域 必 须 至 少 有 两 台 名 字 服 务 器 用 于 答复 区 域 

中 的 DNS 请 求 。 
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